在线内射一区二区,国内精自品线一区91,欧美一区在线观看视频,亚洲欧洲日本精品

          招聘信息 | 版權(quán)聲明 | 廣告合作 | 關(guān)于我們 | 違法和不良信息舉報(bào)電話:0531-88556595
          城市
          濟(jì)南 青島 淄博 棗莊 東營 煙臺(tái) 濰坊 濟(jì)寧 泰安 威海 日照 臨沂 德州 聊城 濱州 菏澤
          首頁 > 數(shù)字山東 > > 正文
          從宣紙到數(shù)字化 古籍這樣走出“深閨”
          發(fā)布時(shí)間:2021-06-10 18:17:30 | 來源:大眾網(wǎng) | 作者:盧昱 | 責(zé)任編輯:高靜

            手寫或印刷在薄薄宣紙上的方塊漢字走出“深閨”,古籍?dāng)?shù)字化像一把鑰匙……

            打開“用”與“藏”環(huán)環(huán)相扣的鐵鎖

          孔子博物館藏《乾隆御定石經(jīng)》初拓本

            40余種珍貴宋元刻本、寫本,著名藏書樓嘉業(yè)堂、密韻樓的抄本,文瀾閣《四庫全書》零本……近日,這批珍藏于美國加州大學(xué)伯克利分校的中文古籍善本,以數(shù)字化方式進(jìn)駐“漢典重光”古籍平臺(tái)(網(wǎng)址為https://wenyuan.aliyun.com/home)。

            古籍中那些手寫或印刷在薄薄宣紙上的方塊漢字,經(jīng)過數(shù)字化,飄起在“云端”,文化積淀又有了新的保存與光大的途徑。

            錢鐘書的敏銳與遠(yuǎn)見

            據(jù)統(tǒng)計(jì),目前全國各公藏單位擁有古籍總量超過5000萬冊(cè),需要修復(fù)的古籍約1500萬冊(cè)。即使在古籍不再繼續(xù)遭到破壞的前提下,以當(dāng)前的修復(fù)人才及修復(fù)條件計(jì)算,要完成全部修復(fù)工作仍需數(shù)百年。

            古籍文獻(xiàn)集文物價(jià)值和學(xué)術(shù)價(jià)值于一身。從保護(hù)的角度看,古籍應(yīng)在合適的環(huán)境中收藏,盡量減少在普通環(huán)境中的時(shí)間,降低使用時(shí)可能帶來的損傷。有測(cè)試表明,一部宋元古籍,離開專用書庫,置于普通閱覽室中供人翻閱一小時(shí),其壽命就會(huì)縮短數(shù)月。

            從利用的角度看,古籍若沉睡在庫房,就無法發(fā)揮其價(jià)值,而且許多學(xué)者的研究與古籍內(nèi)容息息相關(guān)。此時(shí),古籍?dāng)?shù)字化像一把鑰匙,打開了“用”與“藏”環(huán)環(huán)相扣的鐵鎖。

            事實(shí)上,“古籍”與“數(shù)字化”已相遇三十余年。

            古籍?dāng)?shù)字化,最初扎根在紅學(xué)研究領(lǐng)域。在1980年國際紅學(xué)會(huì)議上,美籍華裔學(xué)者陳炳藻提交《從字匯上的統(tǒng)計(jì)論紅樓夢(mèng)的作者問題》,提出用計(jì)算機(jī)統(tǒng)計(jì)《紅樓夢(mèng)》的字詞,以輔助確定《紅樓夢(mèng)》尤其是后四十回作者的問題。國外的這些信息激發(fā)了國內(nèi)部分學(xué)者的興趣,他們開始關(guān)注并嘗試將計(jì)算機(jī)技術(shù)應(yīng)用于人文研究。

            受此啟發(fā),鎮(zhèn)江的紅學(xué)研究者彭昆侖開始利用計(jì)算機(jī)程序探討《紅樓夢(mèng)》人物年齡的問題。1985年他調(diào)到鎮(zhèn)江市科委后,又與東南大學(xué)(原南京工學(xué)院)合作完成《紅樓夢(mèng)》數(shù)據(jù)庫。此后,深圳大學(xué)建成“紅樓夢(mèng)多功能檢索系統(tǒng)”。

            1980年前后,錢鐘書的女兒錢瑗到英國訪學(xué),看到英國學(xué)者用電腦儲(chǔ)存、查閱莎士比亞的資料。回國后,她把這一信息告訴錢鐘書。錢鐘書敏銳地意識(shí)到這一新鮮事物的價(jià)值,讓助手欒貴明從事相關(guān)研究。

            在錢鐘書的指導(dǎo)下,欒貴明主持的課題組先后完成“《論語》數(shù)據(jù)庫”“《全唐詩》速檢系統(tǒng)”等課題,并榮獲1990年“國家科技進(jìn)步獎(jiǎng)”三等獎(jiǎng)。這些都是利用計(jì)算機(jī)進(jìn)行人文研究的早期實(shí)踐。

            當(dāng)時(shí),古籍?dāng)?shù)字化還在萌芽狀態(tài)。在1987年12月人民日?qǐng)?bào)出版社出版的《論語數(shù)據(jù)庫》一書卷首,錢鐘書寫道:“從理論上來說,計(jì)算機(jī)和人類使用過的其他工具沒有什么性質(zhì)的不同。它在還未被人廣泛使用的時(shí)候,除自身尚待完善以外,總會(huì)遭到一些抵拒。慣用舊家什的人依然偏愛著他們熟悉的工具。有了紙墨筆硯‘文房四寶’,準(zhǔn)還有人用刀筆和竹簡;有了汽車、飛機(jī)、電報(bào)電話,也還有不惜體力和時(shí)間的保守者。對(duì)新事物的抗拒是歷史上常有的現(xiàn)象,抗拒新事物到頭來的失敗也是歷史常給人的教訓(xùn)。”——當(dāng)前古籍?dāng)?shù)字化的潮流,可說是對(duì)他遠(yuǎn)見的最好褒獎(jiǎng)。

            數(shù)字古籍為“母本”代言

            上世紀(jì)九十年代后期,古籍文獻(xiàn)數(shù)據(jù)庫的建設(shè)步入快車道。

            1996年,書同文公司啟動(dòng)的文淵閣《四庫全書》電子版是一個(gè)標(biāo)志性工程,被譽(yù)為大型中文電子出版工程的典范。該工程動(dòng)用300名校錄人員、60名技術(shù)、學(xué)術(shù)和管理人員,歷時(shí)三年多完成。

            而今,國家圖書館的“中華古籍資源庫”已在線發(fā)布超過3.3萬部的古籍影像;中華書局的“中華經(jīng)典古籍庫”已發(fā)布3000多種、15億字的點(diǎn)校本古籍;愛如生公司的“中國基本古籍庫”收書1萬種,既有可供檢索的全文,又提供古籍原版圖像;像家譜、方志、中醫(yī)藥等專類古籍在多地興起……

            除了以上大而強(qiáng)的綜合數(shù)據(jù)庫,在網(wǎng)絡(luò)上,很多古籍愛好者,出于熱愛和自覺,建立古籍?dāng)?shù)據(jù)庫,如“書格”“殆知閣”等,與以上數(shù)據(jù)庫多頭掘進(jìn),共同成為諸多文史研究者的助手。

            近年來,古籍?dāng)?shù)字化在服務(wù)于學(xué)術(shù)研究方面,立功頗多。比如中南民族大學(xué)王兆鵬主持的“唐宋文學(xué)編年系地信息平臺(tái)”、浙江大學(xué)徐永明團(tuán)隊(duì)與哈佛大學(xué)共建的“學(xué)術(shù)地圖發(fā)布平臺(tái)”、中國社科院劉京臣的“宋代文學(xué)地圖數(shù)字分析平臺(tái)研究”等值得關(guān)注的數(shù)字人文成果,其平臺(tái)的建設(shè)離不開數(shù)字化古籍的基礎(chǔ)作用。

            而數(shù)字化之后,古籍“母本”不再需要冒著各種風(fēng)險(xiǎn)“拋頭露臉”。與此同時(shí),數(shù)字化的古籍,可以走出“深閨”,像孫悟空一般實(shí)現(xiàn)七十二種變化,在不同時(shí)間滿足不同地域讀者的閱讀需求,實(shí)現(xiàn)一對(duì)多、點(diǎn)對(duì)面、虛對(duì)實(shí)的變化。

            在山東,古籍?dāng)?shù)字化的步伐也在同步跟進(jìn)。據(jù)山東省圖書館歷史文獻(xiàn)部主任、研究館員杜云虹介紹,省圖在2013年發(fā)布“山東省圖書館古籍珍本數(shù)據(jù)庫”,收入數(shù)字化古籍資源近1000種,共計(jì)10萬余拍,內(nèi)容涵蓋從明代至民國不同時(shí)期、不同類型的經(jīng)史子集四部類古籍資源;2018年,省圖將數(shù)字化的館藏《永樂南藏》1600余部佛經(jīng)、204592拍、587764頁,在網(wǎng)絡(luò)上公開發(fā)布;目前,省圖已完成“易學(xué)古籍?dāng)?shù)據(jù)庫”建設(shè),實(shí)現(xiàn)6164種易學(xué)古籍書目在線檢索和其中900種易學(xué)古籍的數(shù)字化……

            “現(xiàn)在,古籍普查工作還沒有最終完成。我們要摸清家底,古籍?dāng)?shù)字化不是一朝一夕的事兒,要在保護(hù)好古籍的前提下,做好規(guī)劃,清楚哪些工作是最迫切的,不能零打碎敲地做,更不能盲目開發(fā)利用。”杜云虹說。

            對(duì)于如何用好“在云端”的古籍寶庫,杜云虹分析道:“怎么讓古籍里的文字活起來,讓大家覺得不很遙遠(yuǎn),有很多工作要做。央視的節(jié)目《典籍里的中國》,講述典籍傳承文明的故事,是很好的嘗試。”

            當(dāng)阿里涉足古籍

            “電商巨頭阿里涉足古籍行業(yè)。這在電商行業(yè)意味著什么我不清楚,但在古籍領(lǐng)域確實(shí)算得上一個(gè)大新聞。”網(wǎng)友“人生五味”評(píng)價(jià)道。

            阿里巴巴達(dá)摩院院長張建鋒表示,達(dá)摩院自2017年起接觸古籍?dāng)?shù)字化領(lǐng)域,2019年正式參與由阿里巴巴公益基金會(huì)、四川大學(xué)、美國加州大學(xué)伯克利分校、中國國家圖書館、浙江圖書館合作開展的“漢典重光”項(xiàng)目,旨在尋覓流散海外的中國古籍并將其數(shù)字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對(duì)話、與優(yōu)秀傳統(tǒng)文化對(duì)話。

            目前,首批20萬頁古籍已完成數(shù)字化,并沉淀為覆蓋3萬多字的古籍字典,公眾可通過“漢典重光”平臺(tái)翻閱、檢索古籍。記者打開平臺(tái)網(wǎng)頁,試著搜索“山東”“濟(jì)南”等關(guān)鍵詞,跳出《戰(zhàn)國策》《通鑒綱目》《河防一覽》等結(jié)果,皆可定點(diǎn)查詢、鎖定。相較于其他成熟的數(shù)據(jù)庫,“漢典重光”后臺(tái)的數(shù)據(jù)量還偏小,在使用時(shí)也有一些不夠流暢之處。

            新潮的阿里似乎對(duì)陳舊的古籍還不太熟悉,但這種“相逢”正探尋著古籍?dāng)?shù)字化的新路徑。

            據(jù)悉,古籍?dāng)?shù)字化大概有以下流程:采集側(cè),將紙質(zhì)書變?yōu)殡娮訏呙璋?生產(chǎn)側(cè),將電子掃描版變?yōu)槲淖职?應(yīng)用側(cè),將文字版變?yōu)楣偶袑W(xué)系統(tǒng),涵蓋檢索、字典、知識(shí)圖譜等功能。

            目前,古籍?dāng)?shù)字化在采集側(cè)、生產(chǎn)側(cè)有兩種方法。第一種是純?nèi)斯や浫耄缫槐緯?0萬字,人工把10萬字輸入計(jì)算機(jī)。像《四庫全書》的編修,就是紙書時(shí)代的“人工錄入”,當(dāng)年在乾隆皇帝的主持下,紀(jì)昀等360多位高官、學(xué)者參與叢書編修,一共用了3800多人、耗時(shí)13年才完成。《四庫全書》包含3462種書、7.9萬余卷、3.6萬余冊(cè),總字?jǐn)?shù)約10億。在當(dāng)下,已很難找到并組織眾多精通古文字的專家,如此專注、數(shù)十年如一日地來做錄入工作。

            第二種是計(jì)算機(jī)與人工結(jié)合,計(jì)算機(jī)利用文字識(shí)別技術(shù)提取一部分文字,計(jì)算機(jī)無法識(shí)別的文字則由人類專家手動(dòng)錄入,最終再由人工進(jìn)行檢校。這一技術(shù)路線雖探索多年,但始終沒能讓識(shí)別效率大幅提升。原因主要在于:計(jì)算機(jī)能識(shí)得的古籍文字極為有限,若用傳統(tǒng)的機(jī)器學(xué)習(xí)方法“教會(huì)”計(jì)算機(jī)海量的古籍文字,得先提供海量的標(biāo)注數(shù)據(jù),用于訓(xùn)練識(shí)別模型。而古籍文字沒有現(xiàn)成的標(biāo)注數(shù)據(jù),需要懂古文的專業(yè)人士手動(dòng)標(biāo)注,可能比人工直接錄入的工作量更大、成本更高。

            面對(duì)海量無標(biāo)注的數(shù)據(jù),如何讓AI(人工智能)快速批量識(shí)別古籍,始終是古籍?dāng)?shù)字化領(lǐng)域的技術(shù)瓶頸。對(duì)此,阿里巴巴達(dá)摩院技術(shù)團(tuán)隊(duì)與四川大學(xué)專家聯(lián)手,在第二種技術(shù)方法的基礎(chǔ)上,研發(fā)了一套全新的識(shí)別系統(tǒng)。

            首先是全書檢測(cè),把古籍正文中的每個(gè)字都摳出來,作為單獨(dú)的一張圖;然后進(jìn)行聚類,一本古籍總字?jǐn)?shù)可能有10萬字,但其中有很多字是重復(fù)的,比如“之”“乎”“者”“也”等,聚類就是讓機(jī)器自動(dòng)把字形筆畫一致的字歸為一類,接著再由專家進(jìn)行標(biāo)注。原本全部要人工標(biāo)注10萬字的書,經(jīng)過聚類,只需要對(duì)二三千字類進(jìn)行標(biāo)注即可,一類字只需標(biāo)注一次。

            聚類和人工標(biāo)注,不僅完成了每一類文字的認(rèn)字過程,還收獲了更多新的訓(xùn)練樣本,可以繼續(xù)喂給機(jī)器學(xué)習(xí)。古籍里有很多生僻字、異體字、異形字,出現(xiàn)概率極低,幾乎找不到樣本。對(duì)此,達(dá)摩院團(tuán)隊(duì)使用字體遷移方法,讓機(jī)器自動(dòng)為每個(gè)字合成幾個(gè)新樣本,確保單字樣本量達(dá)到10個(gè),用來訓(xùn)練少樣本識(shí)別模型。

            從聚類到少樣本模型識(shí)別,走完一輪,全書70%左右的文字可以被打上正確的標(biāo)簽,余下的部分將從頭再來一遍,進(jìn)行第二輪迭代,又能解決余下文字中的70%。經(jīng)過兩輪迭代,一本書91%的文字可以被識(shí)別。如此,通過不斷的學(xué)習(xí),訓(xùn)練數(shù)據(jù)越來越多,機(jī)器的認(rèn)字能力也越來越強(qiáng)。

            在復(fù)雜的算法養(yǎng)成過程中,人工標(biāo)注的工作量被大大降低。“經(jīng)過反復(fù)的學(xué)習(xí)和提升,目前達(dá)摩院系統(tǒng)對(duì)伯克利20萬頁古籍的整體識(shí)別準(zhǔn)確率達(dá)到了97.5%。這套人機(jī)交互的識(shí)別方案,錄入效率比純?nèi)斯ぽ斎胩嵘私?0倍。”張建鋒說。

            張建鋒表示,守護(hù)中華傳世典籍,是科技工作者和文化工作者共同的使命。阿里計(jì)劃將這套技術(shù)工具連同古籍?dāng)?shù)字化平臺(tái)一并捐贈(zèng),交由權(quán)威公共機(jī)構(gòu)長期運(yùn)營;同時(shí),阿里仍將在古籍?dāng)?shù)字化工作上持續(xù)投入人力、物力。(大眾日?qǐng)?bào)記者 盧昱)

           

          熱點(diǎn)新聞
          滾動(dòng)
          濱州:百萬尾魚苗放歸大海湖泊
          濟(jì)南大北環(huán)高速公路建設(shè)啟動(dòng) 強(qiáng)省會(huì)迎來三環(huán)時(shí)代
          菏澤打造兩條“金絲帶” 擦亮“黃河入魯”品牌
          濟(jì)寧:“十四五”聚力推進(jìn)“八個(gè)強(qiáng)市”建設(shè)
          聊城試點(diǎn)運(yùn)行電動(dòng)車新型智能無線充電樁
          日照:杜鵑花驚艷綻放,遍地芬芳
          煙臺(tái)市首個(gè)居民區(qū)充電示范點(diǎn)建成投運(yùn)
          青島114個(gè)項(xiàng)目入選“省重點(diǎn)” 項(xiàng)目覆蓋13條產(chǎn)業(yè)鏈
          淄博全力打造三大平臺(tái) 助力“中國膜谷”建設(shè)
          濟(jì)南吹響現(xiàn)代化強(qiáng)省會(huì)建設(shè)沖鋒號(hào)
          青島防疫物資企業(yè)加速“出圈”
          總投資1258億元!淄博市春季重大項(xiàng)目集中開工“拔頭籌”
          ?
          +更多
          山東榮成:海上“夏收”忙
          山東榮成:海上“夏收”忙
          麥浪滾滾滿目金黃 曲阜市息陬鎮(zhèn)天氣晴好麥?zhǔn)彰?/span>
          麥浪滾滾滿目金黃 曲阜市息陬鎮(zhèn)天氣晴好麥?zhǔn)彰?>
</a>
<a href=
          濱州市花月季五月盛放 扮靚城區(qū)邀君共賞
          濱州市花月季五月盛放 扮靚城區(qū)邀君共賞
          碧草茵茵“鳳凰湖”
          碧草茵茵“鳳凰湖”
          濰坊市奎文開發(fā)區(qū)開通6條公交線路
          濰坊市奎文開發(fā)區(qū)開通6條公交線路
          臨沂這條“紅色專線”入選全國“十大最美農(nóng)村路”
          臨沂這條“紅色專線”入選全國“十大最美農(nóng)村路”
          ?