湯幟:知識服務(wù)技術(shù)報告 ——2014中國數(shù)字圖書館可持續(xù)發(fā)展研討會主題報告
背景:2014年5月21日,由高等教育文獻(xiàn)保障系統(tǒng)(CALIS)管理中心、江蘇省高校圖書情報工作委員會和方正IT旗下的北京方正阿帕比技術(shù)有限公司(以下簡稱“方正阿帕比”)聯(lián)合主辦的“2014中國數(shù)字圖書館可持續(xù)發(fā)展研討會”在南京隆重召開。數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室主任、北京大學(xué)計算機(jī)研究所研究員、北京方正阿帕比技術(shù)有限公司CTO湯幟做主題報告。
以下為詳細(xì)內(nèi)容:
湯幟:尊敬的各位來賓,大家好!我們今天會議的主題是探索與知識的距離。
說到知識服務(wù)服務(wù)、管理這些詞,其實(shí)很久以前就出現(xiàn)了,在上世紀(jì)90年代就有人寫書寫論文寫這些問題,但是真正的知識服務(wù)技術(shù)是最近幾年的事情,為什么這么講呢?因?yàn)镮T技術(shù)的發(fā)展非常的快,使我們現(xiàn)在有條件能夠把這些大量的傳統(tǒng)的信息數(shù)據(jù)轉(zhuǎn)換成知識。這個圖我們可以看到這是一個國際上著名的IT咨詢公司總結(jié)的一個圖,它是把現(xiàn)在已經(jīng)影響當(dāng)今社會最大的四項(xiàng)顛覆性的技術(shù)描述在這里,其中包括移動計算,我們很清楚的,每個人手里都拿著手機(jī)。還有社會計算,就是通過社會化網(wǎng)絡(luò),人機(jī)的協(xié)同來計算。還有一個就是云計算,再有一個就是大數(shù)據(jù),大數(shù)據(jù)的事情和我們的知識服務(wù)關(guān)系就更加密切了,曾經(jīng)OPPO的CEO說過,我們現(xiàn)在在互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)就相當(dāng)于人類進(jìn)入信息以來到2013年產(chǎn)生的數(shù)據(jù),我們怎么樣不被數(shù)據(jù)給淹沒了?就需要把這個數(shù)據(jù)有機(jī)的組織起來。其實(shí)知識服務(wù)技術(shù)有很多,還是在繼續(xù)的研究和探索過程當(dāng)中,我們可以從今年發(fā)布的2015年度863指南就可以看到,其中2.2基于大數(shù)據(jù)的人類智能關(guān)鍵技術(shù)與系統(tǒng)。CCF大數(shù)據(jù)專家委員會發(fā)布的《2014大數(shù)據(jù)發(fā)展趨勢預(yù)測》當(dāng)中可以看到,大數(shù)據(jù)分析與可視化,其中的熱點(diǎn)技術(shù)同樣和我們的知識技術(shù)非常密切。這里有深度學(xué)習(xí)技術(shù),自然語言處理,云計算等等。
我們怎么來看待這些東西呢?首先可以從知識的處理流程來看,知識處理的路程,一個是知識的采集,知識的聚合,知識的挖掘,知識的存儲,知識的利用,知識的評價。知識的采集是知識服務(wù)的一個源頭,數(shù)據(jù)首先要有來源,這個是從出版的領(lǐng)域,圖書館里都可以采集很當(dāng)多數(shù)據(jù),包括互聯(lián)網(wǎng)的數(shù)據(jù)。知識利用的出口——知識的評價,對產(chǎn)生的知識數(shù)據(jù)更進(jìn)一步。通過讀者也好,通過各種各樣的評價,利用社會計算的方式提高知識的質(zhì)量,或者產(chǎn)生新的知識,進(jìn)入到下一個知識采集的循環(huán)里面去。
其中最難的一件事是什么呢?我們在大量的數(shù)據(jù)里面,從顯性的知識和隱性的知識資源中提煉,涉及計算機(jī)的技術(shù)也有不少,包括自然語言處理技術(shù),數(shù)據(jù)挖掘的技術(shù),知識重組技術(shù)和語義網(wǎng)技術(shù)。在2000年之后,語義網(wǎng)技術(shù)已經(jīng)發(fā)展起來,技術(shù)的應(yīng)用已經(jīng)逐漸的走向成熟。
語義網(wǎng)技術(shù)是知識服務(wù)的技術(shù)的核心,這個很早就有了,從下面看包括了數(shù)據(jù)UII等等。有了這個數(shù)據(jù)描述框架還不夠,語義網(wǎng)的技術(shù)目的是要能夠讓計算機(jī)自動的去計算,能夠識別,在這個基礎(chǔ)上發(fā)展出來的OWL語言。它相關(guān)的還有IDF數(shù)據(jù)的存儲,以及IDF數(shù)據(jù)的查詢語言,這里組成了語義數(shù)據(jù)的存儲。
語義網(wǎng)為網(wǎng)絡(luò)本題語言,把它本題的各種實(shí)體建立起一些關(guān)聯(lián)關(guān)系,后面的計算機(jī)就可以自動化的處理,比如捕捉OWL的地址,里面包括了這個實(shí)體相關(guān)事件,居住地,地點(diǎn),國家等等,還有相關(guān)聯(lián)的關(guān)系,層次的關(guān)系等等,這些信息都可以通過一個OWL的方式進(jìn)行整體描述。這樣后續(xù)的服務(wù)可以提供更好的支持。這些數(shù)據(jù)都是用三聯(lián)組的方式描述的,數(shù)據(jù)和數(shù)據(jù)之間有很多的關(guān)聯(lián)關(guān)系,組成了一個網(wǎng)狀的圖,這樣的一個數(shù)據(jù)用傳統(tǒng)的關(guān)系數(shù)據(jù)庫去描述就很困難,因?yàn)殛P(guān)系數(shù)據(jù)庫只能描述二維表格的數(shù)據(jù),而這個用一些新的技術(shù)手段進(jìn)行描述,利用數(shù)據(jù)庫提供更好的查詢、檢索和快速的找到相關(guān)的檢索數(shù)據(jù)。這是一個語義網(wǎng)里面很重要的一個方面。
數(shù)據(jù)的查詢,我們傳統(tǒng)的數(shù)據(jù)庫有SPARQL可以提供一個自然語言方式的查詢,比如要查詢某某人大學(xué)校友的職業(yè)是什么,好幾個層次下來以后,傳統(tǒng)的檢索是很難去檢索這樣的事情,但是通過SPARQL語言,就很容易的把這樣一個自然的事情快速的檢索出來,這是語義網(wǎng)帶來的一個好處。
語義網(wǎng)的發(fā)展最近幾年已經(jīng)得到了比較多的應(yīng)用,這個圖我們看到的例子就是谷歌,它其實(shí)利用了繼續(xù)學(xué)習(xí)的方法,從網(wǎng)頁當(dāng)中發(fā)現(xiàn)了實(shí)體與實(shí)體之間的關(guān)系。
谷歌發(fā)布了一個知識圖譜,搜索一個字條以后,除了傳統(tǒng)的谷歌條以外,在它的右邊也可以顯示出相關(guān)具體的信息,比如說檢索居里夫人,在右邊的圖上直接可以看到居里夫人的出生年月,獲得的諾貝爾獎,這些信息很精確地就出來了。在有下放還有相關(guān)科學(xué)家的圖片和連接,這是把不同的視頻關(guān)系可以直接的展示出來。
在國外的百度搜索里面也有一些類似的技術(shù),比如在百度上搜一個不掉毛的狗,還直接給了一個直接查詢結(jié)果,這是實(shí)體的介紹。通過搜狗的智立方可以查到姚明的身高,這是語義網(wǎng)技術(shù)的推理,直接得到一個數(shù)據(jù)。從這個結(jié)果里面我們可以看到,直接搜索也可以出來這個結(jié)果,互聯(lián)網(wǎng)的智能是不是已經(jīng)非常發(fā)達(dá)了呢?其實(shí)答案是否定的。我們現(xiàn)在看到姚明的身高出來了,查我的身高到網(wǎng)上肯定查不到,輸入湯幟的身高出來的結(jié)果沒有一個我的身高數(shù)字。換一個詞,我們查湯幟的職稱,這個在互聯(lián)網(wǎng)上是有的,在北大的網(wǎng)頁上可以找到我的職稱,但是敲進(jìn)去還是一樣,這個網(wǎng)頁沒有那個職稱信息,這是為什么呢?其實(shí)語義網(wǎng)技術(shù)可以把姚明的身高直接跳出來,但是光有這個技術(shù)本身還不夠,需要有大量的實(shí)體數(shù)據(jù)才能夠把這些通過語義的推理找到,從這點(diǎn)上講,谷歌也好,搜狗也好,這些以往搜索的技術(shù)目前還是處于少量的熱門的一些詞可以找出來,或者說現(xiàn)在達(dá)到了技術(shù)展示的目的,達(dá)到一些娛樂大眾的目的,但是還不能達(dá)到真正的知識服務(wù)的目的。其實(shí)最難的是什么?最難的就是我們在大量的數(shù)據(jù)里面,特別是非提供化的數(shù)據(jù)里面怎么樣能夠便捷的很快速的找出它的實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系,這是很難的事情。
阿帕比知識服務(wù)也是做了很多的研究和實(shí)踐。從技術(shù)上講,主要是我們做了這幾方面的事情,我們利用了語義網(wǎng)的技術(shù)創(chuàng)建了阿帕比服務(wù),對于我們很多的數(shù)據(jù)進(jìn)行了實(shí)際的提取,建立一個RBF數(shù)據(jù),在這個基礎(chǔ)上面,我們還利用數(shù)據(jù)挖掘的技術(shù),把這些數(shù)據(jù)和阿帕比資源進(jìn)行了連接。實(shí)體數(shù)據(jù)建立起來以后還需要展示的技術(shù)提供給娛樂服務(wù),包括檢索服務(wù)等等,這些是我們現(xiàn)在做的一些工作。這個圖就可以給大家看看阿帕比的知識服務(wù)技術(shù),可以看到技術(shù)流程。從左上角的半結(jié)構(gòu)化的文化和非結(jié)構(gòu)化的文本,還有工具書。半結(jié)構(gòu)化文本的數(shù)據(jù)比較好做一些。非結(jié)構(gòu)化的數(shù)據(jù)就比較多,我們大量的從出版社出版的圖書都是非結(jié)構(gòu)化的,這些數(shù)據(jù)其實(shí)是最難的數(shù)據(jù)。第三塊是工具書,里面有很多的字典辭典,這些數(shù)據(jù)的抽取相對比較容易一些,這是處理的數(shù)據(jù)對象。我們還建立了阿帕比的知識架構(gòu),我們提供了一些相關(guān)的實(shí)體與實(shí)體關(guān)系之間的計算,建立了整個數(shù)據(jù)。這是知識服務(wù)技術(shù)相關(guān)的圖。
基于這些技術(shù),我們已經(jīng)建立了大型的中英文數(shù)據(jù)的知識結(jié)構(gòu),這里面包含了2384個類,支持了的謂詞有8305個,我們已經(jīng)建立了千萬個數(shù)據(jù),已經(jīng)可以提供阿帕比相關(guān)的一些知識和服務(wù)。我們可能有人會問,剛才講的谷歌,百度,從這些技術(shù)非常強(qiáng)的公司知識提取方面也遇到了很多的困難,阿帕比到底怎么做呢?從技術(shù)上講,我們在一個非結(jié)構(gòu)化的數(shù)據(jù)里面找出實(shí)體,然后建立實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,它的技術(shù)水平是大同小異,從學(xué)術(shù)界我們經(jīng)??吹接腥税l(fā)表了一個新的論文,提出了一個新的算法,最后一個數(shù)據(jù)的比較,效果提高了1%,甚至提高了百分之零點(diǎn)幾,這是我們經(jīng)常看到的一個結(jié)果。但是從另外一個角度來講,實(shí)際的提取效果高1%,對人工的加工來說沒有任何影響,加工量仍然是一樣的。所以我們必須尋找一些更好的方法,能夠快速的去建立這些實(shí)體關(guān)系,我們阿帕比有一個很大的優(yōu)勢,就是我們有很多的資源,出版社很多已經(jīng)加工好的數(shù)據(jù),特別是工具書里面,我們有很多的百科全書和辭典數(shù)據(jù),這些數(shù)據(jù)都是已經(jīng)條目化了,每個詞條和它的解釋都是有密切的關(guān)聯(lián)關(guān)系。運(yùn)用這些工具書的信息,我們可以建立更好的快速的從這里面找到一些實(shí)體與實(shí)體的分析關(guān)系,可以達(dá)到更好的效果。這是我們做了實(shí)體關(guān)系計算的比較優(yōu)勢的技術(shù)。
有了IBF數(shù)據(jù)以后,我們可以提供更好的展示,從這個圖可以看到,如果檢索到一個秦始皇這個詞就馬上有一些秦始皇精確的解釋,出生年月,民族等等這些信息。我們也可以提供一些其他的詞,民族不是漢族的都有哪些人等等,屬性和類別的關(guān)聯(lián)關(guān)系可以直接的給出來。還列出一些同齡的人,都可以通過這個知識服務(wù)的方式去提供。
目前阿帕比的知識服務(wù)技術(shù)已經(jīng)用了相關(guān)的產(chǎn)品里面去,我們通過學(xué)知搜索就可以看到,這里面已經(jīng)采用了知識關(guān)聯(lián)和句群抽取,SVM分類等。
剛才主要講了一些語義網(wǎng)的技術(shù)和應(yīng)用,光有語義網(wǎng)是不夠的。這里的云計算都為知識提供措施,通過云計算可以隨時隨地的去享受知識的服務(wù),通過社會計算,我們除了剛才講實(shí)體提取的困難,也可以通過大量的社會計算的方式,使它的實(shí)體提取關(guān)聯(lián)做得更加的精準(zhǔn)。通過云計算,我們?yōu)橹R服務(wù)更加的高效和數(shù)據(jù)不斷的增長,創(chuàng)造一個更好的環(huán)境。
這些知識服務(wù)提供了更多的應(yīng)用方式,比如說通過知識服務(wù)圖譜,知識導(dǎo)航,個性化知識對接的方式給讀者提供服務(wù)。也可以通過語義搜索,提供結(jié)構(gòu)化的查詢和關(guān)系的查詢。在知識服務(wù)的時候,我們可以提供更多的檢索,比如輸入一個數(shù)學(xué)公式,有一個數(shù)學(xué)公式出來,輸入一個化學(xué)公式式可以檢索出化學(xué)公式來,輸入一些圖片可以搜出相關(guān)的圖片來。我們和其他的同類算法做過一個比較,在整個的檢索效率上還是起到了作用。
公式檢索還會想到一個問題,輸入一個公式很困難,我們也實(shí)現(xiàn)了一個通過鼠標(biāo)鍵盤輸入一個公式的界面,這樣任何人都可以輸入公式了。此外,我們還可以做一個更加方便的公式輸入方法,在閱讀過程當(dāng)中看到一個數(shù)學(xué)公式,拉入這個框,直接就可以檢索出公式來了。
最后想對阿帕比知識服務(wù)技術(shù)做一個簡單的小結(jié)。通過我們的知識技術(shù)服務(wù)可以增強(qiáng)我們內(nèi)容的透明度,使用語義挖掘書本中藏得更深的內(nèi)容。通過知識服務(wù),我們還可以基于內(nèi)容相關(guān)技術(shù),把用戶檢索的知識點(diǎn)進(jìn)行相關(guān)知識的提示,通過一些圖的方式,列表的方式,可以獲得更多的結(jié)果,能擴(kuò)大一些知識面。我們通過知識結(jié)構(gòu),可以提供知識點(diǎn)的一些精確的屬性,而且我們還可以提供與自然語言為基礎(chǔ)的語義檢索。通過知識服務(wù),我們還可以通過知識的結(jié)構(gòu)構(gòu)建出更多未知的知識,通過課題的屬性,通過相關(guān)的一些類別??偟哪康木褪亲屪x者能夠更方便的,更加快捷的獲取更加多的知識,這些知識服務(wù)技術(shù)已經(jīng)在剛才講的學(xué)知搜索里面應(yīng)用了。也會應(yīng)用到我們相關(guān)的技術(shù)服務(wù)。知識技術(shù)服務(wù)還是在不斷的發(fā)展當(dāng)中,阿帕比也愿意把這些知識服務(wù)技術(shù)不斷的開發(fā),研究一些新的提高完善的技術(shù),為廣大讀者提供更好的服務(wù)。
湯幟:尊敬的各位來賓,大家好!我們今天會議的主題是探索與知識的距離。
說到知識服務(wù)服務(wù)、管理這些詞,其實(shí)很久以前就出現(xiàn)了,在上世紀(jì)90年代就有人寫書寫論文寫這些問題,但是真正的知識服務(wù)技術(shù)是最近幾年的事情,為什么這么講呢?因?yàn)镮T技術(shù)的發(fā)展非常的快,使我們現(xiàn)在有條件能夠把這些大量的傳統(tǒng)的信息數(shù)據(jù)轉(zhuǎn)換成知識。這個圖我們可以看到這是一個國際上著名的IT咨詢公司總結(jié)的一個圖,它是把現(xiàn)在已經(jīng)影響當(dāng)今社會最大的四項(xiàng)顛覆性的技術(shù)描述在這里,其中包括移動計算,我們很清楚的,每個人手里都拿著手機(jī)。還有社會計算,就是通過社會化網(wǎng)絡(luò),人機(jī)的協(xié)同來計算。還有一個就是云計算,再有一個就是大數(shù)據(jù),大數(shù)據(jù)的事情和我們的知識服務(wù)關(guān)系就更加密切了,曾經(jīng)OPPO的CEO說過,我們現(xiàn)在在互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)就相當(dāng)于人類進(jìn)入信息以來到2013年產(chǎn)生的數(shù)據(jù),我們怎么樣不被數(shù)據(jù)給淹沒了?就需要把這個數(shù)據(jù)有機(jī)的組織起來。其實(shí)知識服務(wù)技術(shù)有很多,還是在繼續(xù)的研究和探索過程當(dāng)中,我們可以從今年發(fā)布的2015年度863指南就可以看到,其中2.2基于大數(shù)據(jù)的人類智能關(guān)鍵技術(shù)與系統(tǒng)。CCF大數(shù)據(jù)專家委員會發(fā)布的《2014大數(shù)據(jù)發(fā)展趨勢預(yù)測》當(dāng)中可以看到,大數(shù)據(jù)分析與可視化,其中的熱點(diǎn)技術(shù)同樣和我們的知識技術(shù)非常密切。這里有深度學(xué)習(xí)技術(shù),自然語言處理,云計算等等。
我們怎么來看待這些東西呢?首先可以從知識的處理流程來看,知識處理的路程,一個是知識的采集,知識的聚合,知識的挖掘,知識的存儲,知識的利用,知識的評價。知識的采集是知識服務(wù)的一個源頭,數(shù)據(jù)首先要有來源,這個是從出版的領(lǐng)域,圖書館里都可以采集很當(dāng)多數(shù)據(jù),包括互聯(lián)網(wǎng)的數(shù)據(jù)。知識利用的出口——知識的評價,對產(chǎn)生的知識數(shù)據(jù)更進(jìn)一步。通過讀者也好,通過各種各樣的評價,利用社會計算的方式提高知識的質(zhì)量,或者產(chǎn)生新的知識,進(jìn)入到下一個知識采集的循環(huán)里面去。
其中最難的一件事是什么呢?我們在大量的數(shù)據(jù)里面,從顯性的知識和隱性的知識資源中提煉,涉及計算機(jī)的技術(shù)也有不少,包括自然語言處理技術(shù),數(shù)據(jù)挖掘的技術(shù),知識重組技術(shù)和語義網(wǎng)技術(shù)。在2000年之后,語義網(wǎng)技術(shù)已經(jīng)發(fā)展起來,技術(shù)的應(yīng)用已經(jīng)逐漸的走向成熟。
語義網(wǎng)技術(shù)是知識服務(wù)的技術(shù)的核心,這個很早就有了,從下面看包括了數(shù)據(jù)UII等等。有了這個數(shù)據(jù)描述框架還不夠,語義網(wǎng)的技術(shù)目的是要能夠讓計算機(jī)自動的去計算,能夠識別,在這個基礎(chǔ)上發(fā)展出來的OWL語言。它相關(guān)的還有IDF數(shù)據(jù)的存儲,以及IDF數(shù)據(jù)的查詢語言,這里組成了語義數(shù)據(jù)的存儲。
語義網(wǎng)為網(wǎng)絡(luò)本題語言,把它本題的各種實(shí)體建立起一些關(guān)聯(lián)關(guān)系,后面的計算機(jī)就可以自動化的處理,比如捕捉OWL的地址,里面包括了這個實(shí)體相關(guān)事件,居住地,地點(diǎn),國家等等,還有相關(guān)聯(lián)的關(guān)系,層次的關(guān)系等等,這些信息都可以通過一個OWL的方式進(jìn)行整體描述。這樣后續(xù)的服務(wù)可以提供更好的支持。這些數(shù)據(jù)都是用三聯(lián)組的方式描述的,數(shù)據(jù)和數(shù)據(jù)之間有很多的關(guān)聯(lián)關(guān)系,組成了一個網(wǎng)狀的圖,這樣的一個數(shù)據(jù)用傳統(tǒng)的關(guān)系數(shù)據(jù)庫去描述就很困難,因?yàn)殛P(guān)系數(shù)據(jù)庫只能描述二維表格的數(shù)據(jù),而這個用一些新的技術(shù)手段進(jìn)行描述,利用數(shù)據(jù)庫提供更好的查詢、檢索和快速的找到相關(guān)的檢索數(shù)據(jù)。這是一個語義網(wǎng)里面很重要的一個方面。
數(shù)據(jù)的查詢,我們傳統(tǒng)的數(shù)據(jù)庫有SPARQL可以提供一個自然語言方式的查詢,比如要查詢某某人大學(xué)校友的職業(yè)是什么,好幾個層次下來以后,傳統(tǒng)的檢索是很難去檢索這樣的事情,但是通過SPARQL語言,就很容易的把這樣一個自然的事情快速的檢索出來,這是語義網(wǎng)帶來的一個好處。
語義網(wǎng)的發(fā)展最近幾年已經(jīng)得到了比較多的應(yīng)用,這個圖我們看到的例子就是谷歌,它其實(shí)利用了繼續(xù)學(xué)習(xí)的方法,從網(wǎng)頁當(dāng)中發(fā)現(xiàn)了實(shí)體與實(shí)體之間的關(guān)系。
谷歌發(fā)布了一個知識圖譜,搜索一個字條以后,除了傳統(tǒng)的谷歌條以外,在它的右邊也可以顯示出相關(guān)具體的信息,比如說檢索居里夫人,在右邊的圖上直接可以看到居里夫人的出生年月,獲得的諾貝爾獎,這些信息很精確地就出來了。在有下放還有相關(guān)科學(xué)家的圖片和連接,這是把不同的視頻關(guān)系可以直接的展示出來。
在國外的百度搜索里面也有一些類似的技術(shù),比如在百度上搜一個不掉毛的狗,還直接給了一個直接查詢結(jié)果,這是實(shí)體的介紹。通過搜狗的智立方可以查到姚明的身高,這是語義網(wǎng)技術(shù)的推理,直接得到一個數(shù)據(jù)。從這個結(jié)果里面我們可以看到,直接搜索也可以出來這個結(jié)果,互聯(lián)網(wǎng)的智能是不是已經(jīng)非常發(fā)達(dá)了呢?其實(shí)答案是否定的。我們現(xiàn)在看到姚明的身高出來了,查我的身高到網(wǎng)上肯定查不到,輸入湯幟的身高出來的結(jié)果沒有一個我的身高數(shù)字。換一個詞,我們查湯幟的職稱,這個在互聯(lián)網(wǎng)上是有的,在北大的網(wǎng)頁上可以找到我的職稱,但是敲進(jìn)去還是一樣,這個網(wǎng)頁沒有那個職稱信息,這是為什么呢?其實(shí)語義網(wǎng)技術(shù)可以把姚明的身高直接跳出來,但是光有這個技術(shù)本身還不夠,需要有大量的實(shí)體數(shù)據(jù)才能夠把這些通過語義的推理找到,從這點(diǎn)上講,谷歌也好,搜狗也好,這些以往搜索的技術(shù)目前還是處于少量的熱門的一些詞可以找出來,或者說現(xiàn)在達(dá)到了技術(shù)展示的目的,達(dá)到一些娛樂大眾的目的,但是還不能達(dá)到真正的知識服務(wù)的目的。其實(shí)最難的是什么?最難的就是我們在大量的數(shù)據(jù)里面,特別是非提供化的數(shù)據(jù)里面怎么樣能夠便捷的很快速的找出它的實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系,這是很難的事情。
阿帕比知識服務(wù)也是做了很多的研究和實(shí)踐。從技術(shù)上講,主要是我們做了這幾方面的事情,我們利用了語義網(wǎng)的技術(shù)創(chuàng)建了阿帕比服務(wù),對于我們很多的數(shù)據(jù)進(jìn)行了實(shí)際的提取,建立一個RBF數(shù)據(jù),在這個基礎(chǔ)上面,我們還利用數(shù)據(jù)挖掘的技術(shù),把這些數(shù)據(jù)和阿帕比資源進(jìn)行了連接。實(shí)體數(shù)據(jù)建立起來以后還需要展示的技術(shù)提供給娛樂服務(wù),包括檢索服務(wù)等等,這些是我們現(xiàn)在做的一些工作。這個圖就可以給大家看看阿帕比的知識服務(wù)技術(shù),可以看到技術(shù)流程。從左上角的半結(jié)構(gòu)化的文化和非結(jié)構(gòu)化的文本,還有工具書。半結(jié)構(gòu)化文本的數(shù)據(jù)比較好做一些。非結(jié)構(gòu)化的數(shù)據(jù)就比較多,我們大量的從出版社出版的圖書都是非結(jié)構(gòu)化的,這些數(shù)據(jù)其實(shí)是最難的數(shù)據(jù)。第三塊是工具書,里面有很多的字典辭典,這些數(shù)據(jù)的抽取相對比較容易一些,這是處理的數(shù)據(jù)對象。我們還建立了阿帕比的知識架構(gòu),我們提供了一些相關(guān)的實(shí)體與實(shí)體關(guān)系之間的計算,建立了整個數(shù)據(jù)。這是知識服務(wù)技術(shù)相關(guān)的圖。
基于這些技術(shù),我們已經(jīng)建立了大型的中英文數(shù)據(jù)的知識結(jié)構(gòu),這里面包含了2384個類,支持了的謂詞有8305個,我們已經(jīng)建立了千萬個數(shù)據(jù),已經(jīng)可以提供阿帕比相關(guān)的一些知識和服務(wù)。我們可能有人會問,剛才講的谷歌,百度,從這些技術(shù)非常強(qiáng)的公司知識提取方面也遇到了很多的困難,阿帕比到底怎么做呢?從技術(shù)上講,我們在一個非結(jié)構(gòu)化的數(shù)據(jù)里面找出實(shí)體,然后建立實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,它的技術(shù)水平是大同小異,從學(xué)術(shù)界我們經(jīng)??吹接腥税l(fā)表了一個新的論文,提出了一個新的算法,最后一個數(shù)據(jù)的比較,效果提高了1%,甚至提高了百分之零點(diǎn)幾,這是我們經(jīng)常看到的一個結(jié)果。但是從另外一個角度來講,實(shí)際的提取效果高1%,對人工的加工來說沒有任何影響,加工量仍然是一樣的。所以我們必須尋找一些更好的方法,能夠快速的去建立這些實(shí)體關(guān)系,我們阿帕比有一個很大的優(yōu)勢,就是我們有很多的資源,出版社很多已經(jīng)加工好的數(shù)據(jù),特別是工具書里面,我們有很多的百科全書和辭典數(shù)據(jù),這些數(shù)據(jù)都是已經(jīng)條目化了,每個詞條和它的解釋都是有密切的關(guān)聯(lián)關(guān)系。運(yùn)用這些工具書的信息,我們可以建立更好的快速的從這里面找到一些實(shí)體與實(shí)體的分析關(guān)系,可以達(dá)到更好的效果。這是我們做了實(shí)體關(guān)系計算的比較優(yōu)勢的技術(shù)。
有了IBF數(shù)據(jù)以后,我們可以提供更好的展示,從這個圖可以看到,如果檢索到一個秦始皇這個詞就馬上有一些秦始皇精確的解釋,出生年月,民族等等這些信息。我們也可以提供一些其他的詞,民族不是漢族的都有哪些人等等,屬性和類別的關(guān)聯(lián)關(guān)系可以直接的給出來。還列出一些同齡的人,都可以通過這個知識服務(wù)的方式去提供。
目前阿帕比的知識服務(wù)技術(shù)已經(jīng)用了相關(guān)的產(chǎn)品里面去,我們通過學(xué)知搜索就可以看到,這里面已經(jīng)采用了知識關(guān)聯(lián)和句群抽取,SVM分類等。
剛才主要講了一些語義網(wǎng)的技術(shù)和應(yīng)用,光有語義網(wǎng)是不夠的。這里的云計算都為知識提供措施,通過云計算可以隨時隨地的去享受知識的服務(wù),通過社會計算,我們除了剛才講實(shí)體提取的困難,也可以通過大量的社會計算的方式,使它的實(shí)體提取關(guān)聯(lián)做得更加的精準(zhǔn)。通過云計算,我們?yōu)橹R服務(wù)更加的高效和數(shù)據(jù)不斷的增長,創(chuàng)造一個更好的環(huán)境。
這些知識服務(wù)提供了更多的應(yīng)用方式,比如說通過知識服務(wù)圖譜,知識導(dǎo)航,個性化知識對接的方式給讀者提供服務(wù)。也可以通過語義搜索,提供結(jié)構(gòu)化的查詢和關(guān)系的查詢。在知識服務(wù)的時候,我們可以提供更多的檢索,比如輸入一個數(shù)學(xué)公式,有一個數(shù)學(xué)公式出來,輸入一個化學(xué)公式式可以檢索出化學(xué)公式來,輸入一些圖片可以搜出相關(guān)的圖片來。我們和其他的同類算法做過一個比較,在整個的檢索效率上還是起到了作用。
公式檢索還會想到一個問題,輸入一個公式很困難,我們也實(shí)現(xiàn)了一個通過鼠標(biāo)鍵盤輸入一個公式的界面,這樣任何人都可以輸入公式了。此外,我們還可以做一個更加方便的公式輸入方法,在閱讀過程當(dāng)中看到一個數(shù)學(xué)公式,拉入這個框,直接就可以檢索出公式來了。
最后想對阿帕比知識服務(wù)技術(shù)做一個簡單的小結(jié)。通過我們的知識技術(shù)服務(wù)可以增強(qiáng)我們內(nèi)容的透明度,使用語義挖掘書本中藏得更深的內(nèi)容。通過知識服務(wù),我們還可以基于內(nèi)容相關(guān)技術(shù),把用戶檢索的知識點(diǎn)進(jìn)行相關(guān)知識的提示,通過一些圖的方式,列表的方式,可以獲得更多的結(jié)果,能擴(kuò)大一些知識面。我們通過知識結(jié)構(gòu),可以提供知識點(diǎn)的一些精確的屬性,而且我們還可以提供與自然語言為基礎(chǔ)的語義檢索。通過知識服務(wù),我們還可以通過知識的結(jié)構(gòu)構(gòu)建出更多未知的知識,通過課題的屬性,通過相關(guān)的一些類別??偟哪康木褪亲屪x者能夠更方便的,更加快捷的獲取更加多的知識,這些知識服務(wù)技術(shù)已經(jīng)在剛才講的學(xué)知搜索里面應(yīng)用了。也會應(yīng)用到我們相關(guān)的技術(shù)服務(wù)。知識技術(shù)服務(wù)還是在不斷的發(fā)展當(dāng)中,阿帕比也愿意把這些知識服務(wù)技術(shù)不斷的開發(fā),研究一些新的提高完善的技術(shù),為廣大讀者提供更好的服務(wù)。