經(jīng)典美文

5U文學(xué)網(wǎng) > 美文 > 經(jīng)典美文 > 知識圖譜,知識圖譜構(gòu)建工具

知識圖譜,知識圖譜構(gòu)建工具

| admin

什么是知識圖譜

知識圖譜,是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。

基礎(chǔ)知識-知識圖譜

知識圖譜的構(gòu)建形式:

自頂向下:先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。

自底向上(常用) :從一些開放鏈接數(shù)據(jù)中提取出實體,選擇其中置信度較高的加入到知識庫,再構(gòu)建頂層的本體模式。

(1)語義信息抽?。? (2)多元數(shù)據(jù)集成與驗證(知識融合); (3)知識圖譜補全

知識庫分類:

開放鏈接知識庫:Freebase、Wikidata、DBpedia、YAGO。包含大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。

垂直行業(yè)知識庫(特定領(lǐng)域):IMDB(影視)、MusicBrainz(音樂)、ConceptNet(概念)等。

基于規(guī)則與詞典的方法(為目標(biāo)實體編寫模板,然后進(jìn)行匹配):編寫大量規(guī)則或模板,覆蓋領(lǐng)域有限,難以適應(yīng)新需求

基于統(tǒng)計機(jī)器學(xué)習(xí)的方法(機(jī)器學(xué)習(xí),訓(xùn)練模型,識別實體):監(jiān)督學(xué)習(xí)算法受訓(xùn)練集限制,準(zhǔn)確率和召回率不夠理想

( 召回率:真陽性 / 真陽性 + 假陽性;準(zhǔn)確率:真陽性 + 真陰性 / 真陽性 + 假陽性 + 真陰性 + 假陰性 )

面向開放域的抽取方法(面向海量的Web語料):通過少量實體實例建立特征模型,再通過它應(yīng)用于新的數(shù)據(jù)集,給新實體做分類與聚類。(迭代擴(kuò)展)

早期:人工構(gòu)造語義規(guī)則以及模板的方式;

實體間的關(guān)系模型代替了早期的人工構(gòu)造;

面向開放域的信息抽取框架(OIE):對隱含關(guān)系抽取性能低下。

( 隱含關(guān)系抽取:基于馬爾科夫邏輯網(wǎng)、基于本體推理的深層隱含關(guān)系抽取方法 )

可以將實體屬性的抽取問題轉(zhuǎn)換為關(guān)系抽取問題

分布式表示 目的在于用 一個綜合的向量來表示實體對象的語義信息 ,這種形式在知識圖譜的計算、 補全 、推理等方面起到重要的作用:

1、語義相似度計算:實體間的語義關(guān)聯(lián)程度,為自然語言處理(NLP)等提供了極大的便利

2、

消除異構(gòu)數(shù)據(jù)中實體沖突、指向不明等不一致性問題。

(1)待對齊數(shù)據(jù)分區(qū)索引;

(2)利用相似度函數(shù)或相似性算法查找匹配實例;

(3)對齊算法(成對實體對齊、全局(局部)集合實體對齊)進(jìn)行實例融合。

經(jīng)過實體對齊后得到一系列的基本事實表達(dá),然后事實并不等于知識,它只是知識的基本單位。

本體相當(dāng)于知識庫的模具,使其具有較強的層次結(jié)構(gòu)和較小的冗余程度。

可分為人工構(gòu)建和數(shù)據(jù)驅(qū)動自動構(gòu)建。

數(shù)據(jù)驅(qū)動的本體自動構(gòu)建:

①縱向概念間的并列關(guān)系計算:計算兩個實體間并列關(guān)系的相似度,辨析他們在語義層面是否屬于同一個概念。

②實體上下位關(guān)系抽取。

③本體生成:對各層次得到的概念進(jìn)行聚類,并為每一類的實體指定1個或多個公共上位詞。

通常是與實體對齊任務(wù)一起進(jìn)行:對知識可信度進(jìn)行量化,保留置信度較高的,舍棄置信度較低的。

主要包括模式層的更新與數(shù)據(jù)層的更新。

一階謂詞邏輯、描述邏輯以及規(guī)則等

(1)一階謂詞邏輯:以命題為基本,命題包含個體(實體)和謂詞(屬性或關(guān)系)。

(2)基于描述邏輯的規(guī)則推理:在(1)的基礎(chǔ)上發(fā)展而來,目的是在知識表示能力與推理復(fù)雜度之間追求一種平衡。

(3)通過本體的概念層次推理。

一些算法主要是 利用了關(guān)系路徑 中的蘊涵信息:

通過圖中兩個實體間的多步路徑來預(yù)測它們之間的語義關(guān)系,即從源節(jié)點開始,在圖上根據(jù)路徑建模算法進(jìn)行游走,如果能夠到達(dá)目標(biāo)節(jié)點,則推測源節(jié)點和目標(biāo)節(jié)點間存在聯(lián)系。

( 關(guān)系路徑的建模研究仍處于初期階段,需要進(jìn)一步探索完成 )

參考文獻(xiàn):

[1]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016,45(04):589-606.

什么是知識圖譜?有哪些模型?指標(biāo)?規(guī)則?

“圖譜”的時代

知識圖譜自從2012年開始發(fā)酵,愈演愈烈,行業(yè)頂端的佼佼者紛紛發(fā)布企業(yè)知識圖譜應(yīng)用,知識圖譜能為企業(yè)實現(xiàn)數(shù)據(jù)價值。只能說,圖技術(shù)快速發(fā)展,業(yè)務(wù)需求不論變化與否,知識圖譜是不可阻擋的趨勢。2020年4月20日,國家發(fā)改委明確人工智能 “新基建” 的內(nèi)涵,體現(xiàn)“重創(chuàng)新、補短板”的特征:助力傳統(tǒng)基礎(chǔ)設(shè)施智能化改造,提高傳統(tǒng)基礎(chǔ)設(shè)計的運行效率。

圖1?中國知識圖譜效益增長規(guī)模——艾瑞咨詢

當(dāng)前的人工智能其實可以簡單劃分為感知智能(主要集中在對于圖片、視頻以及語音的能力的探究)和認(rèn)知智能( 涉及知識推理、因果分析等)。

人工智能是新基建的重點領(lǐng)域,而知識圖譜是認(rèn)知智能的底層支撐。 知識圖譜具有解釋數(shù)據(jù)、推理和規(guī)劃一系列人類的思考認(rèn)知能力,基于大規(guī)模,關(guān)聯(lián)度高的背景知識。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ————《面向人工智能“新基建”的知識圖譜行業(yè)白皮書》?

我們每天都在用知識圖譜

知識圖譜應(yīng)用于各個領(lǐng)域,例如:電商(產(chǎn)品推薦)、醫(yī)療(智能診斷)、金融(風(fēng)控)、證券(投研)。知名企業(yè)包括:Google Knowledge Graph、美團(tuán)大腦、阿里巴巴·藏經(jīng)閣計劃、騰訊云·知識圖譜 TKG等。

知識圖譜在人工智能多個領(lǐng)域發(fā)揮重要作用:語義搜索、智能問答、輔助語言理解、輔助大數(shù)據(jù)分析、增強機(jī)器學(xué)習(xí)的可解釋性、結(jié)合圖卷積輔助圖像分類等。同時,這也意味著技術(shù)難度大幅度增加。

知識圖譜的價值

您可能會以為知識圖就是捕獲和管理知識的最終目的。其實,知識圖擅長以自上而下的 關(guān)系連接方式顯式捕獲知識 。通過關(guān)系節(jié)點聯(lián)系上下游關(guān)系,清楚的梳理關(guān)系網(wǎng)絡(luò)。如下圖:

圖2?普適智能知識中臺

高效直觀地刻畫目標(biāo)主體(如企業(yè)、事件等)之間地關(guān)聯(lián)網(wǎng)絡(luò),從而全維度地對企業(yè)進(jìn)行畫像,立體復(fù)現(xiàn)主體的真實情況和錯綜復(fù)雜的關(guān)系。其強大的互聯(lián)組織能力和可視化決策推理支持,為企業(yè)資產(chǎn)提供底層基礎(chǔ)。普適智能一站式“圖智能”應(yīng)用, 擁有打開“百竅”的能力, 具體有以下幾方面的思考:

深度鏈接分析 有機(jī)可尋

拿我們最熟悉的金融領(lǐng)域舉例,知識圖譜常見的實體包括公司、產(chǎn)品、人員、相關(guān)事件等,常見的關(guān)系包括股權(quán)關(guān)系、任職關(guān)系、供應(yīng)商關(guān)系、上下游關(guān)系、競爭關(guān)系等等。

這樣做的好處就是,通過知識圖譜的整合,讓原本復(fù)雜的數(shù)據(jù)形成直觀易懂的可視化圖譜,?在全球經(jīng)濟(jì)一體化的趨勢下,分析師以及投資機(jī)構(gòu)很可能先人一步觀察到競爭格局的改變,為尋找 新客戶、新投資機(jī)會提供線索。

圖3?企業(yè)上下游關(guān)系網(wǎng)絡(luò)

多維度屬性? 順藤摸瓜

知識圖譜的另一個價值是“可以簡單地處理多維度數(shù)據(jù)”。 目前在普適智能幫客戶分析超百億的實體(或節(jié)點)和關(guān)系(或邊緣)。

圖4 某股份制商業(yè)銀行基金產(chǎn)品關(guān)系網(wǎng)絡(luò)截圖

“對于實益擁有權(quán),我們經(jīng)常會看到擁有六,七層或更多層的擁有權(quán)階層,尤其是在像中國這樣擁有大型企業(yè)的地方?!?“人們必須意識到一個擁有可以處理并查詢至少六到七層(如果沒有更多層)的拿手工具是解決問題的真正核心?!?/p>

每個公司、個人、新聞事件都可以是一個“點”,人工智能引擎可將這些點進(jìn)行聚集,對其中的相關(guān)性、相似度以及聚集程度進(jìn)行多維度分析, 還原真實場景 ,才能 “順藤摸瓜”。

圖5 反欺詐圖應(yīng)用

例如知識圖譜在傳統(tǒng)的風(fēng)險管理流程中,多通過對目標(biāo)主體簡單維度的特征進(jìn)行嚴(yán)格審核,無法判斷真實的關(guān)聯(lián)風(fēng)險。

挑戰(zhàn)與機(jī)會

普適智能深耕于金融領(lǐng)域,其細(xì)分業(yè)務(wù)場景包含但不限于:反欺詐、反洗錢、盜刷排查、失聯(lián)催收、外匯異常監(jiān)控、信用審核等,舉個具體項目中的例子:因圖構(gòu)建本身流程較長,再加上每個場景的圖構(gòu)建相對的獨立,給數(shù)據(jù)反復(fù)開發(fā),數(shù)據(jù)不連通創(chuàng)造了必要條件, 繞不過去的是大量企業(yè)資產(chǎn)成本浪費問題。

圖6?傳統(tǒng)關(guān)系網(wǎng)絡(luò)應(yīng)用的構(gòu)建模式

在工程落地方面,還存在圖譜建設(shè)周期長,應(yīng)用構(gòu)建專業(yè)程度高,跨行業(yè)遷移成本高等難題。由此帶來的挑戰(zhàn)會體現(xiàn)在—— 產(chǎn)品是否可以開箱即用 。

普適智能中臺化思路

為了解決以上問題,普適智能自主研發(fā)將知識圖譜構(gòu)建與應(yīng)用平臺升級為一站式的“圖智能”中臺。

圖7?傳統(tǒng)關(guān)系網(wǎng)絡(luò)應(yīng)用的構(gòu)建模式

一套中臺和工廠模式平臺的孕育而生,確保各式的場景對圖不同形態(tài)的需求和保證聯(lián)合查詢需求。“一竅通,百竅通”,一站式“圖智能”中臺就是“那一竅”,以下:

打通業(yè)務(wù)場景獨立圖譜構(gòu)建 ,減少反復(fù)開發(fā)周期成本,為傳統(tǒng)應(yīng)用形態(tài)賦能,提升服務(wù)質(zhì)量和效率,簡單的圖應(yīng)用可以在 1~2天 內(nèi)實現(xiàn),復(fù)雜的圖應(yīng)用可以在傳統(tǒng)做法上縮短到 三分之一 ,加速企業(yè)資產(chǎn)的累積;

配合著打通部門數(shù)據(jù) ,解決跨部門合作溝通周期長、配合難的問題;

圖譜交互友好程度高,可視化決策輔助業(yè)務(wù)場景,更易發(fā)現(xiàn) 隱藏的信息 ;

賦能專家行業(yè)專家,將領(lǐng)域?qū)<业男袠I(yè)經(jīng)驗的程序化,留存在平臺, 企業(yè)知識資產(chǎn)沉淀。

實時可擴(kuò)充 ,彈性十足

知識圖譜中臺的價值還在于靈活可擴(kuò)充,建立實時敏捷、靈活可擴(kuò)展、具有彈性的數(shù)據(jù)基礎(chǔ)。 金融知識圖譜直接反饋金融行業(yè)的剛性需求,由于實際中,企業(yè)數(shù)據(jù)和業(yè)務(wù)變化靈活,數(shù)據(jù)源、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)內(nèi)容隨時會發(fā)生變動,對業(yè)務(wù)的理解以及對數(shù)據(jù)的解讀也隨之發(fā)生變化。

圖8?多維數(shù)據(jù)擴(kuò)展查詢

如何有效的使用這些數(shù)據(jù),需要員工具備專業(yè)的金融知識,深刻理解某個數(shù)據(jù)變動可能引發(fā)的關(guān)聯(lián)、傳導(dǎo),知識圖譜將是最得心應(yīng)手的工具。

圖技術(shù)是 知識圖譜應(yīng)用的最強彈藥

企業(yè)需要能夠快速支持業(yè)務(wù)中迭代式的新模式。普適智能的“圖智能”中臺具有計算引擎: 圖計算模型、圖匹配業(yè)務(wù)數(shù)據(jù)模型等, 助力企業(yè)完成這一目標(biāo)。

圖規(guī)則計算: (例如:與黑名單客戶共用一個電話的客戶是可疑欺詐客戶)

圖指標(biāo)計算: (例如:客戶兩度關(guān)系內(nèi)黑名單客戶的比例)

圖機(jī)器學(xué)習(xí) (以圖作為先驗知識讓特征工程更有效)

社群識別 :標(biāo)簽預(yù)測(黑/潛在VIP客戶預(yù)測)

圖9?社區(qū)分析

最短路徑 :優(yōu)化加工路徑,節(jié)約數(shù)據(jù)加工成本。

圖10?路徑查詢

“工欲善其事,必先利其器” 。普適智能一站式“圖智能”應(yīng)用,為描繪物理世界生產(chǎn)生活行為提供 有效的方法和工具 。Gartner:“圖時代已經(jīng)到來”,讓我們一起“圖”起來!

知識圖譜概念是什么?

知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。

知識圖譜又稱為科學(xué)知識圖譜,其本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。知識圖譜通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合。

構(gòu)建方式

知識圖譜有自頂向下和自底向上兩種構(gòu)建方式。所謂自頂向下構(gòu)建是借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識庫中;所謂自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度較高的新模式,經(jīng)人工審核之后,加入到知識庫中。

以上內(nèi)容參考:百度百科-知識圖譜

知識圖譜概念是什么?

知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構(gòu)建方式。自頂向下指的是先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。

該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識庫作為其基礎(chǔ)知識庫,例如 Freebase 項目就是采用這種方式,它的絕大部分?jǐn)?shù)據(jù)是從維基百科中得到的。

然而目前,大多數(shù)知識圖譜都采用自底向上(bottom-up)的構(gòu)建方式。自底向上指的是從一些開放連接數(shù)據(jù)(也就是 “信息”)中提取出實體,選擇其中置信度較高的加入到知識庫,再構(gòu)建實體與實體之間的聯(lián)系。

知識圖譜的體系架構(gòu)是:

知識圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu)。

知識圖譜在邏輯結(jié)構(gòu)上可分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進(jìn)行存儲。

如果用(實體1,關(guān)系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達(dá)事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì),例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。

模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達(dá)。本體是結(jié)構(gòu)化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小。

大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識抽取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識要素。通過知識融合,可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,形成高質(zhì)量的知識庫。

知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。分布式的知識表示形成的綜合向量對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。

223154