當(dāng)古籍修復(fù)遇上人工智能

中藝網(wǎng) 發(fā)布時(shí)間: 2022-04-11


  北京大學(xué)數(shù)字人文研究中心、北京大學(xué)-字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室、北京大學(xué)人工智能研究院聯(lián)合主辦的“古籍智能信息處理”系列研討會(huì)日前在線上舉辦。

  在研討會(huì)上,北京大學(xué)數(shù)字人文研究中心主任王軍算了一筆賬:我國(guó)現(xiàn)存古籍約有20萬(wàn)種,從1949年到2019年,共修復(fù)整理出版了近38000種,照此速度,要將現(xiàn)存古籍全部修復(fù)整理出來(lái),可能需要三百年的時(shí)間。不過(guò),若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。

  王軍所說(shuō)的“利用人工智能技術(shù)修復(fù)古籍”,并非遙遠(yuǎn)的科學(xué)設(shè)想,它正在成為現(xiàn)實(shí)中的生動(dòng)實(shí)踐。“古籍智能信息處理”系列研討會(huì)第一講開講后不久,字節(jié)跳動(dòng)宣布向北大教育基金會(huì)提供捐贈(zèng),支持北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室研發(fā)“古籍?dāng)?shù)字化平臺(tái)”,利用智能技術(shù)加速中華古籍資源的數(shù)字化建設(shè),預(yù)計(jì)三年內(nèi)完成10000種精選古籍的智能化修復(fù)整理。

  古籍文本轉(zhuǎn)化正在智能化

  很長(zhǎng)一段時(shí)間里,古籍保護(hù)主要采用原生性保護(hù)方式,即把古籍當(dāng)作“文物”保護(hù)起來(lái)。后來(lái)出現(xiàn)再生性保護(hù)方式,對(duì)古籍進(jìn)行影印再造和影像保存,讓古籍得以以紙本或縮微膠片的形式存在?,F(xiàn)有的數(shù)字化古籍很多是由縮微膠片轉(zhuǎn)換而成,分辨率較低且影像多為黑白色。

  即便將所有古籍用數(shù)字化手段影印出版,古籍也是“死”的,人們無(wú)法方便地使用。北京大學(xué)中文系教授楊海崢舉了個(gè)簡(jiǎn)單的例子——影印的古籍沒(méi)有標(biāo)點(diǎn)符號(hào),非常不便于閱讀。另外,這也不利于對(duì)古籍內(nèi)容進(jìn)行檢索,想查閱某個(gè)內(nèi)容,得逐篇逐頁(yè)閱讀原文,很難快速找到想要的知識(shí)。因此,要提升傳統(tǒng)古籍的利用率,必須將古籍內(nèi)容轉(zhuǎn)化為數(shù)字文本。過(guò)去,這種轉(zhuǎn)化主要依靠專家人工錄入,時(shí)間成本極高。

  “信息技術(shù)的發(fā)展,尤其是人工智能和大數(shù)據(jù)技術(shù)的出現(xiàn),為古籍的修復(fù)整理帶來(lái)了革命性變化?!蓖踯娬f(shuō),近年來(lái),包括北京大學(xué)在內(nèi)的不少高校、科研機(jī)構(gòu)在古籍?dāng)?shù)字化上開展了不少開拓性的工作,在OCR(光學(xué)字符識(shí)別)、AI句讀、實(shí)體識(shí)別等方面積累了比較成熟的技術(shù)和經(jīng)驗(yàn)。以O(shè)CR應(yīng)用為例,用電子設(shè)備對(duì)紙本古籍一掃,古籍上的內(nèi)容就會(huì)轉(zhuǎn)錄到計(jì)算機(jī)中,并生成相應(yīng)的數(shù)字文檔,效率比人工錄入提升了不止千萬(wàn)倍。

  據(jù)了解,利用人工智能和大數(shù)據(jù)技術(shù),北京大學(xué)數(shù)字人文中心在從先秦到明清跨時(shí)代的大規(guī)模古籍文本語(yǔ)料整理上,已實(shí)現(xiàn)對(duì)古文本的自動(dòng)句讀,平均準(zhǔn)確率達(dá)到94%,同時(shí)還實(shí)現(xiàn)了對(duì)人名、地名、時(shí)代名、職官名、書名的自動(dòng)識(shí)別,在中古史料上的準(zhǔn)確率接近98%。

  在這些方面,字節(jié)跳動(dòng)等互聯(lián)網(wǎng)公司也有很多經(jīng)驗(yàn)和技術(shù)積累。例如,OCR技術(shù)在今日頭條、抖音等平臺(tái)的圖片文字識(shí)別、字幕翻譯,以及商業(yè)化業(yè)務(wù)中的各類卡證票據(jù)及行業(yè)文檔識(shí)別等領(lǐng)域均有廣泛應(yīng)用?!斑@些技術(shù)可以逐漸向古籍智能數(shù)字化的方向上遷移。我們?cè)诠偶當(dāng)?shù)字化平臺(tái)開發(fā)中,與北大在技術(shù)上能優(yōu)勢(shì)互補(bǔ),進(jìn)行有效的打通與融合?!弊止?jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)李航表示。

  王軍介紹,“古籍?dāng)?shù)字化平臺(tái)”將會(huì)進(jìn)一步提升古籍整理的準(zhǔn)確率、智能化水平和開放度。一方面,可以對(duì)重點(diǎn)文本進(jìn)行精校,滿足專家學(xué)者對(duì)資料準(zhǔn)確度的要求;另一方面,利用智能平臺(tái)上的文字識(shí)別、校對(duì)工具,學(xué)者和古籍愛好者可以在線上一站式完成古籍整理工作,而不用像以前那樣先在word文檔中進(jìn)行整理編輯,再傳遞相關(guān)的文檔,在提高效率的同時(shí),也方便公眾參與。

  古籍利用有望智慧化

  四川大學(xué)中國(guó)文化全球傳播大數(shù)據(jù)中心教授王兆鵬認(rèn)為,技術(shù)的進(jìn)步為古籍修復(fù)整理智能化帶來(lái)兩個(gè)面向:一是古籍文本轉(zhuǎn)化智能化,二是古籍利用智慧化。

  把紙質(zhì)古籍上的內(nèi)容轉(zhuǎn)化成數(shù)字文本,只是古籍修復(fù)整理的第一步。在此基礎(chǔ)上,要解決的另一個(gè)問(wèn)題是,如何將海量晦澀難懂的古籍內(nèi)容進(jìn)行整理歸類,形成可交互、可觸摸、可視化的數(shù)字人文作品,以方便人們查閱使用。否則,錄入計(jì)算機(jī)的古籍依然會(huì)繼續(xù)“沉睡”。

  基于人工智能技術(shù),目前我國(guó)已建立多個(gè)古籍整理自動(dòng)化和可視化平臺(tái)。比如,王軍主持設(shè)計(jì)和研發(fā)的“《宋元學(xué)案》知識(shí)圖譜可視化系統(tǒng)”,對(duì)240萬(wàn)字的《宋元學(xué)案》進(jìn)行了文本處理和分析,將2000多位宋元理學(xué)學(xué)者、近100個(gè)學(xué)術(shù)流派所涉及的人物、時(shí)間、地點(diǎn)、著作等提取出來(lái)構(gòu)造成知識(shí)圖譜。然而,不少平臺(tái)的智能化水平仍然較低,比如輸入關(guān)鍵詞,搜索出的內(nèi)容各自孤立、凌亂無(wú)序。王兆鵬認(rèn)為,更智慧的古籍整理利用平臺(tái),應(yīng)該從1.0版向2.0版演進(jìn),比如內(nèi)容檢索應(yīng)“以類相從”,檢索出的內(nèi)容應(yīng)彼此關(guān)聯(lián),且由人工智能進(jìn)行有機(jī)分類。

  北京大學(xué)與字節(jié)跳動(dòng)合作研發(fā)“古籍?dāng)?shù)字化平臺(tái)”是提升古籍整理和利用智慧化水平的一次嘗試?!拔覀兒献鞯募夹g(shù)核心是將人工智能和大數(shù)據(jù)應(yīng)用在海量的古籍文獻(xiàn)上,實(shí)現(xiàn)古文本知識(shí)圖譜的自動(dòng)生成和對(duì)古籍內(nèi)容的智能化整理,讓古籍能夠以文本的形態(tài)加以檢索、關(guān)聯(lián)閱讀和深度挖掘利用?!崩詈秸f(shuō),未來(lái),“古籍?dāng)?shù)字化平臺(tái)”不僅是一個(gè)古籍智能整理平臺(tái),還將是一個(gè)面向讀者的數(shù)字化閱讀工具,將提供免費(fèi)開放的訪問(wèn)服務(wù)。

  王軍預(yù)計(jì),隨著人工智能技術(shù)的運(yùn)用,古籍文獻(xiàn)中所蘊(yùn)藏的古代歷史文化知識(shí)將不斷被抽取出來(lái),構(gòu)造成各種各樣的知識(shí)庫(kù),并將會(huì)以知識(shí)圖譜的形式支持互聯(lián)網(wǎng)前端應(yīng)用。

  由于在互聯(lián)網(wǎng)產(chǎn)品研發(fā)、設(shè)計(jì)方面存在優(yōu)勢(shì),互聯(lián)網(wǎng)公司等社會(huì)力量的加入會(huì)進(jìn)一步保障古籍?dāng)?shù)字化平臺(tái)的服務(wù)質(zhì)量?!拔覀冇袃?yōu)秀的產(chǎn)品經(jīng)理、設(shè)計(jì)師、軟件工程師,能夠不斷優(yōu)化、創(chuàng)新古籍?dāng)?shù)字化平臺(tái)的產(chǎn)品功能,提供更好的用戶體驗(yàn)。”北京字節(jié)跳動(dòng)企業(yè)社會(huì)責(zé)任部產(chǎn)品總經(jīng)理唐塏鑫表示,目前今日頭條的設(shè)計(jì)團(tuán)隊(duì)和抖音的開發(fā)、測(cè)試團(tuán)隊(duì)已經(jīng)加入“古籍?dāng)?shù)字化平臺(tái)”的開發(fā)工作。

  需要跨學(xué)科通力合作

  隨著人工智能技術(shù)在古籍修復(fù)整理領(lǐng)域的廣泛應(yīng)用,作為古典文獻(xiàn)專業(yè)的老師,楊海崢經(jīng)常被學(xué)生們問(wèn)到一個(gè)問(wèn)題:“學(xué)古典文獻(xiàn)的同時(shí),還要學(xué)人工智能嗎?”雖然楊海崢不能確定,但一個(gè)事實(shí)是,人工智能技術(shù)與古籍修復(fù)整理的結(jié)合,將開辟出全新的交叉學(xué)科領(lǐng)域,利用人工智能技術(shù)修復(fù)整理古籍肯定需要更多復(fù)合型人才。

  王軍認(rèn)為,在這種情況下,高校古典文獻(xiàn)學(xué)等相關(guān)專業(yè)如何培養(yǎng)兼具技術(shù)與學(xué)術(shù)能力的古典文獻(xiàn)學(xué)人才,如何形成多學(xué)科交叉的課程體系等,都是亟待解決的問(wèn)題。

  此外,人工智能并非“絕頂聰明”。在華南理工大學(xué)電子與信息學(xué)院教授金連文看來(lái),古籍圖像增強(qiáng)、修復(fù),復(fù)雜版式古籍文檔圖像版面分析等問(wèn)題都有待解決。而在對(duì)古籍內(nèi)容的分析整理中,目前最大的技術(shù)難點(diǎn)是人工智能對(duì)古籍中人名、地名等專有名詞識(shí)別后,如何進(jìn)一步實(shí)現(xiàn)關(guān)系提取,從而為古代歷史文化知識(shí)圖譜的自動(dòng)生成準(zhǔn)備技術(shù)條件。

  因此,楊海崢認(rèn)為,在古籍整理中,人文社科學(xué)者還是要積極介入,并加強(qiáng)與技術(shù)人員的合作,那樣才能更好地利用機(jī)器而不是被機(jī)器牽著鼻子走,從而保證結(jié)果的準(zhǔn)確性。

  人工智能技術(shù)的發(fā)展帶來(lái)了古籍整理研究方法、思路的根本改變。業(yè)內(nèi)的一個(gè)共識(shí)是,利用人工智能推進(jìn)古籍修復(fù)整理需要進(jìn)行跨學(xué)科、跨環(huán)境、跨文化、跨地區(qū)合作。正如王軍所言,“古籍保護(hù)需要社會(huì)各界的共同努力,應(yīng)歡迎更多古籍收藏機(jī)構(gòu)、研究機(jī)構(gòu)和熱心古籍事業(yè)的個(gè)人加入,這樣才能打造出一個(gè)開放的‘古籍?dāng)?shù)字化平臺(tái)’”。


分享到:
          推薦給好友 便于打印
注:凡注明“中藝網(wǎng)”字樣的視頻、圖片或文字均屬于本網(wǎng)站專稿,如須轉(zhuǎn)載圖片請(qǐng)保留“中藝網(wǎng)”水印,轉(zhuǎn)載文字內(nèi)容請(qǐng)注明來(lái)源“中藝網(wǎng)”,否則本網(wǎng)站將依據(jù)《信息網(wǎng)絡(luò)傳播保護(hù)條例》維護(hù)網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)!
相關(guān)資訊:
現(xiàn)代名家作品推薦
關(guān)于我們 | 本網(wǎng)動(dòng)態(tài) | 專家顧問(wèn) | 藝術(shù)顧問(wèn) | 代理合作 | 廣告服務(wù) | 友情鏈接 | 聯(lián)系方式
Copyright © 1998-2015 中藝網(wǎng) All rights reserved 法律聲明
電信與信息經(jīng)營(yíng)證: 粵B2-20060194 全國(guó)統(tǒng)一服務(wù)熱線: 400-156-8187