• <pre id="1e866"><s id="1e866"></s></pre>
      1. <td id="1e866"><ruby id="1e866"></ruby></td><td id="1e866"></td>
          <tr id="1e866"><label id="1e866"></label></tr>
        1. <pre id="1e866"><strong id="1e866"></strong></pre>

          <p id="1e866"></p>
          學術服務內容

          在線編輯 學術顧問

          咨詢率高的期刊

          科學技術論文

          知識圖譜及其關鍵技術在中醫藥領域的研究與應用綜述

          時間:2022年03月26日 所屬分類:科學技術論文 點擊次數:

          摘 要:中醫學歷史悠久、卷帙浩繁,但論述較為分散,知識混雜多樣。知識圖譜具有知識語義化、數據易關聯、易擴充的特征,因而逐漸成為中醫藥知識信息化的重要手段。為有利于更好地運用知識圖譜傳承發展中醫藥知識,文章在簡述知識圖譜在中醫藥領域的構建與應用情況的基

            摘 要:中醫學歷史悠久、卷帙浩繁,但論述較為分散,知識混雜多樣。知識圖譜具有知識語義化、數據易關聯、易擴充的特征,因而逐漸成為中醫藥知識信息化的重要手段。為有利于更好地運用知識圖譜傳承發展中醫藥知識,文章在簡述知識圖譜在中醫藥領域的構建與應用情況的基礎上,重點從本體技術和分詞、實體識別、關系抽取等3種知識抽取技術等方面介紹了知識圖譜構建關鍵技術在該領域中的研究應用概況、規律與特點。文章還從知識圖譜存儲關系型知識的角度出發歸納了中醫藥領域對該類知識的應用方向及關鍵技術。通過對文獻的分析與總結,探討了中醫藥領域知識圖譜構建與應用中的問題并提出未來的發展建議。

            關鍵詞:知識圖譜 中醫藥 本體 知識抽取 關系型知識

          知識圖譜

            中國古代醫籍卷帙浩繁、晦澀難懂,現代中醫累積的電子數據文獻的數量也日漸巨大,且都存在知識散布難尋、利用率低的問題,不利于知識傳播傳承、輔助 臨 床 診 療 和 提 煉 總 結 新 知 識 。 知 識 圖 譜(Knowledge Graph, KG)是一種由 Google 于 2012 年首先提出以服務其互聯網搜索業務[1]的知識庫,它把從現實世界中或語言描述的內容中抽象的對象和關系視為知識,并采用點和邊的形式連接成為更容易理解、挖掘的網絡圖結構。作為一種可視性強、自帶推理規則且便于機器學習與利用的知識存儲和應用技術,知識圖譜已被許多領域應用于具體場景中。將中醫藥知識轉化為圖譜形式存儲起來,更有利于用現代化信息手段對中醫藥文化進行傳播傳承和創新發展。為更清晰地把握知識圖譜及其關鍵技術在中醫藥領域研究工作的動態、進展和存在的問題,為科技部國家重點研發計劃(NO.2018YFC1704401)課題《陰虛證辨證規范化及辨證新方法研究》中的辨證規范和辨證方法研究、陰虛證演變規律研究所基于的“陰虛證知識庫”的構建以及古籍的深度利用提供借鑒參考,也為更多學者的相關研究提供信息情報支持,加快知識圖譜技術在本領域的研究應用進程,本文對知識圖譜及其關鍵技術在中醫藥領域的研究與應用情況進行了綜述。

            在簡要介紹中醫藥各子領域構建和應用知識圖譜的情況基礎上,重點梳理和分析了本體和知識抽取(包括分詞、實體識別和關系抽取)技術的基本概念及其在知識圖譜構建中的關鍵作用,該關鍵技術在中醫藥領域的主要研究方向、研究對象、應用場景、采用的方法和工具等,以及其中的規律和特點。通過引入關系型知識的概念,歸納總結了中醫藥領域關系型知識的組織與存儲形式和應用研究的特點、方向、目的及相關技術方法等。最后探討了知識圖譜及其關鍵技術在中醫藥領域的研究與應用中存在的問題,并提出未來研究發展方向的相關建議。

            1 中醫藥領域的知識圖譜

            1.1 知識圖譜概述

            知識圖譜是一種用實體的多關系網絡圖表示知識的技術。其中的網絡圖由“實體(Entity)”抽象成的節點和“關系(Relation)”或“屬性(Property)”抽象成的邊構成。其中人名、公司名稱為實體,“是……的父親(母親)”、“工作于”表示為關系,年齡是屬性(其值為數字)。知識圖譜從邏輯結構上可以劃分為模式層和數據層。模式層是通過對知識的提煉形成了知識圖譜的概念模型和邏輯基礎,中醫藥領域一般采用領域本體作為知識圖譜的模式層。數據層是對模式層的數據填充與實例化,使用形如(實體-關系-實體)或(實體-屬性-屬性值)形式的三元組或圖模型表示知識[2],并 采 用 關 系 型 數 據 庫 或 Neo4j、JanusGraph、TigerGraph、Neptune、OrientDB等圖數據庫來存儲這些知識。

            基于其邏輯結構,知識圖譜的構建方法可分為三類:自底向上、自頂向下和二者混合的方法,區別在于抽象并構建模式層和提取知識構建數據層的順序不同。知識圖譜構建與應用的關鍵技術包括概念模式設計、知識抽取、知識融合、知識推理與挖掘等。概念模式設計即從領域知識中抽象出概念、屬性和關系的定義與分類,以作為知識圖譜的知識描述框架。知識抽取可以從非結構化或半結構化的數據中提取出實體、關系、屬性等知識;知識融合可統一實體名稱或消除指代的歧義;知識推理與挖掘可通過挖掘隱含的知識對知識圖譜進行擴展、展示或進行其他利用。

            1.2 各子領域的知識圖譜

            目前,中醫藥多個子領域的學者主要基于現代文獻或多種文獻融合,構建相關子領域知識圖譜并進行了知識圖譜的應用。①中醫證候領域。肖猛[3]、羅計根[4]、郭夢瑩[5]、周海[6]等學者以中醫證候為中心,基于中醫證候本體、中文百科網站、現代中醫書籍等現代文獻資料中的辨證知識,構建了中醫證候知識圖譜,并在此基礎上進行了可視化或構建了中醫健康管理平臺、中醫智能問答模型。②中醫醫案領域。于彤[7]、李新龍[8]、朱丹[9]、鄧宇[10]、謝先章[11]、鄭子強[12]等學者從專病治療臨床數據、名老中醫醫案、?齐娮硬v、網絡數據或古代醫案中獲取知識,構建臨床醫案、辨證論治、問診或專病知識圖譜,并進行了可視化、學習與推理診療經驗或構建了問診平臺等應用。

           、壑嗅t方劑領域。郭文龍[13]、趙凱[14]、尹丹[15]等學者基于經典名方或方劑數據庫中的方劑知識,構建方劑知識圖譜,并進行檢索、可視化、圖模式搜索等應用。④中藥領域。仲懌等[16]和吳鴻[17]基于現代中藥制藥過程和古今文獻中的知識,建立了中藥知識圖譜。⑤中醫綜合領域。張德政等[18]、張瑩瑩[2]、張雨琪等[19]融合不同數據源的知識,構建了中醫核心知識圖譜、中醫藥知識圖譜、用方經驗知識圖譜等綜合類圖譜。⑥其他子領域。郝偉學[20]、于彤[21]、崔家鵬[22]、王呂穎[23]、葉斌[24]、任薇[25]、盧克治[26]、王菁薇[27]等學者基于現代或古代文獻數據資料的知識,構建了中醫健康、養生、脾臟象理論、中醫問答、胸痹辨證論治或某類古籍的知識圖譜,并進行了知識可視化、檢索、推理、推薦等應用研究。

            2 中醫藥領域知識圖譜構建的關鍵技術

            在知識圖譜的概念提出前,本體、自然語言處理、數據挖掘等技術均已在多個領域被廣泛研究和應用——這其中也包括中醫藥領域。這為知識圖譜在中醫藥領域的引入和快速發展奠定了一定的技術基礎。通過梳理文獻,發現在中醫藥領域的知識獲取與應用(包括知識圖譜和其他類型知識成果或產品的構建與應用)中,對部分知識圖譜關鍵技術如本體技術、知識抽取技術和關系型知識應用技術的研究應用相對較多。因此本章重點分析本體和知識抽取技術的研究應用情況以及其規律和特點,同時將在下一章中歸納總結中醫藥領域關系型知識的組織與存儲形式和應用研究的特點、方向、目的等。

            2.1 本體技術本體(Ontology)

            可以看作是一個領域的共享概念,是表示與組織有用知識的方法。本體的組織結構包括:概念、屬性和關系的定義,以及這些定義的分類。子本體通過層次結構連接成上層本體[28,29]。本體突出的是概念以及概念之間的關系,因此本體是知識圖譜數據模式的一種描述[18]。本體不僅被用于中醫藥知識圖譜的構建,也被用于中醫藥領域的敘詞表[30]、術語體系[31]、語義網絡[32]、知識庫[33]、系統建模[34]、信息處理[35】等。

            本體作為知識描述框架在中醫藥領域的研究應用文獻最早可追溯到2004年[36,37]關于中醫藥一體化語言系統 TCMLS[38]的研究,此后研究方向包括中醫藥領域及子領域本體[39,40]、基于本體的知識庫構建的方法[41],已有本體或子本體的完善、進化、拓展與應用[28,42-44],以及如何采用新方法實現本體構建與本體更新過程的自動化、智能化[45]。在中醫藥領域,本體的研究對象包括證候[40]、疾病[46]、癥狀[47]、方劑[48]、治則治法[49]、診法[50]、針灸[51,52]、醫家[53]、醫案[47]、中藥[53]等;本體的應用以規范化采集、描述和存儲知識,領域知識或經 驗 的 檢 索 、挖 掘 、推 理 、推 薦 、問 答 、共 享 等 為主[33,37,39]。中醫藥本體的構建方法大多采用“七步法”“骨架法”,或它們的改進[54]、結合方法[55]。

            可完全按步驟完成新本體構建,或者借鑒已有成果加以提取[56]、復用[57]或擴展[58]。構建工具以 Protégé 軟件為主,并用RDF或OWL進行知識描述。中醫藥本體作為一種描述框架和建模方式,未來仍然是知識工程里不可缺少的組成部分。在該領域的子領域本體或與之相關的敘詞表、術語體系、語義網絡和知識圖譜等陸續出現和完善后,復用、改進或重用現有本體以提高構建效率、降低資源浪費是一個重要趨勢。而隨著人工智能技術在自然語言處理、推理和檢索等領域應用的逐漸成熟,本體的自動、智能構建與更新技術也是重要的研究方向(目前以人工構建為主),或與人工構建、本體復用等相結合以構建目前來說相對復雜的領域本體。

            2.2 知識抽取技術知識抽取(Knowledge Extraction)是從源數據中分析、識別、篩選和提取知識的過程。根據數據源不同,可將知識抽取分為結構化知識抽取、半結構化知識抽取、非結構化知識抽取。非結構化或半結構化數據的知識抽取涉及一系列的關鍵技術,其中用于純文本數據處理的技術屬于文本數據挖掘技術的一種,也包含在自然語言處理的技術中,如分詞、實體識別(包括術語抽取)、關系抽取等。

            2.2.1 分詞分詞(Word Segmentation)是把語句切分為單個有意義的詞,從而將連續的漢字序列重新組合成詞序列的過程,也叫切詞[59]。分詞的正確性直接影響著后續進行的實體識別、關系抽取與知識利用的效率和準確性。對中醫藥領域文本進行分詞的常用方法包括基于規則的方法、基于統計的方法(機器學習法)和深度學習法等。如果將語句視為不同字符串的集合,可利用基于規則的方法進行分詞(如正向或逆向最大匹配法)[60-62]。

            將語句視為上下文聯系緊密的單字組合、相鄰的字出現次數越多則構成詞的概率越大時,可采用基于統計概率的語言模型進行分詞[63-64]。當把分詞作為一個序列標注問題,根據上下文將語句中的每個字進行分類標注時,常用到能夠記錄更深遠上下文信息并采用非線性擬合的深度學習方法,以及與其他方法結合的方法[65]。當把句子中的一些詞作為領域專用詞時,也可通過實體識別的方法將這些詞標記或分割出來,特別是詞典中不包含的新詞的識別,達到一定程度的分詞效果[66-67]。分詞技術在中文語言處理領域發展較為成熟,研制了多種分詞軟件平臺或工具。

            如中醫 藥 文 本 分 詞 用 到 的 Jieba[68]、盤 古[69]、NLPIRICTCLAS[70,71]、StanfordSegmenter[72]、Rwordseg[73](基 于ICTCLAS)、THULAC[74]、Pkuseg[75]等。中醫藥文本分詞的研究對象包括現代文獻和臨床數據、中醫古籍以及問答系統的用戶問題等[68,69,75-77],其目的包括建立醫療信息平臺或知識圖譜、搜索、推薦、數據挖掘與知識發現、情感分析、自動問答、文本分類等[13,62,63,68,78]。綜上所述,根據分詞原理不同其方法也不同,并隨技術進步不斷更新,但它們各有優缺點,很多成熟的分詞工具都結合了多種分詞方法。目前一些實體識別技術直接略過了分詞階段,如基于預訓練模型的方法,其深層結構可以根據長距離的文本上下文自主學習語義特征,因此分詞技術未來在某些知識圖譜構建場合將可能不再被需要。

            2.2.2 實體識別命名實體

            (Named Entity)是具有一定意義的文本片段,如人名、地名、機構名、日期、時間等[79],簡稱為實體。中醫藥領域的實體一般包括醫家信息、患者信息、疾病名、癥狀名、證候名、方劑名、中藥名及其他中醫 術 語[19,3,80]。

            命 名 實 體 識 別 (Named EntityRecognition,NER)是自然語言處理、知識抽取和機器問答領域的重要任務之一,是實體關系抽取、實體消岐、知識存儲等其他任務的基礎,其主要的工作是確定實體的類型與邊界,也常作為序列標注問題來解決[81]。由于漢語,特別是中醫古籍中的詞缺乏自然邊界,詞性也不像英語單詞那樣可快速識別,因此實體識別往往與自然語言處理的另一項任務分詞密不可分。中醫藥領域實體識別方法在 2018 年前以基于規則的方法[82]、基于統計的方法為主,且大多單獨使用,同時也有文獻對這些方法的效果進行了對比實驗[83]。2018年后深度學習法逐漸在實體識別中普及,并且各種方法被改進,或被結合、組合使用以彌補各自的不足、提高實體識別的準確性和效率,尤以BiLSTM-CRF方法使用最多[12,84]。

            中醫藥實體識別方法緊跟計算機技術和自然語言處理技術的發展步伐,最近幾年流行的更復雜、識別能力更強、使用前訓練時間更少的預訓 練 模 型(如 Bidirectional Encoder Representationsfrom Transformers, BERT)也已開始出現[85]。從數據來源看,中醫藥領域的實體識別針對古籍、現代文獻資料等,尤其是古今醫案、病歷,這可能是因為醫案、病歷中用于引導識別的關鍵字詞、特征字詞相對更多,并且上下文聯系比純理論的中醫文獻要緊密,有利于如隱形馬爾可夫模型(Hidden Markov Model, HMM)、長短期記憶網絡(Long Short-Term Memory, LSTM)這類需要依靠上下文信息來抽取實體的方法發揮優勢。同時,相對于理論著作,醫案/病歷文獻資料在數量上更多,特別是現代電子病歷的獲取相對容易,記錄較完善,用語接近現代漢語,格式更規范,整理、存儲與挖掘利用的需求與價值更大[86,87]。除用于構建知識產品時獲取知識,實體識別在中醫藥領域還用于在文本挖掘、診療系統、知識發現、檢索系統、問答系統、診療系統中對人機交互內容關鍵信息的提取[2,25,88]。

            3 中醫藥領域關系型知識的應用

            根據知識組織與存儲方式的不同,中醫藥領域知識可分為關系型和非關系型。Mueller[97]認為關系型知識是關系的集合,將知識定義為一組描述事物的關系(即將知識形式化為關系,這里僅指二元關系 R( x,y )或xRy),而基于關系可以進行知識發現和推理等。知識圖譜是一種包含節點與邊,以三元組來表示和存儲知識的多關系網絡圖,因此中醫藥領域知識圖譜也是關系的集合。

            目前中醫藥領域的關系型知識主要以本體[98]、語義網絡[99]或知識圖譜[100]等知識庫的形式組織與存儲。與傳統知識的應用不同,關系型知識的應用更注重“關系”在檢索、挖掘、推理等應用中發揮的作用,如基于關系的檢索可以得到與檢索關鍵詞相關的多層次樹形結構的知識。目前中醫藥領域關系型知識的應用包括信息檢索[13]、知識挖掘[101]、診斷推理[20]、方劑推薦[102]、智能問答[4]以及知識可視化[7],其最終目的是為了展示、分享和發現知識,以更好地傳承、發展中醫藥知識及輔助診療過程。在上述應用中,采用了多種關系型知識挖掘與推理的關鍵技術,包括基于規則的推理[20]、垂直搜索[103]、模板問答[104]、圖搜索[15]、圖模式匹配[105]、相似度計算[106]、鏈路預測[12]、路徑推理[12]、關聯規則[106]與機器學習[107]、深度學習技術[23]等。同時,目前被用于中醫藥領域關系型知識挖掘與推理的關系不僅有中醫藥主要概念或實體間的領域專有關系,也有通用型關系[102]。在進行知識展示、挖掘或發現時,輸入的關系覆蓋類型越多,可獲得的信息也就越豐富,挖掘或發現的結果也會更加準確與可靠,但同時也將不可避免地面臨某些關系的數據稀疏、計算或尋找最優方案的效率降低等問題。

            4 討論

            4.1 存在的問題

            盡管多個子領域都已開展知識圖譜的構建與應用研究,但依然存在如下問題:①缺少集中管理、高度共享的語料庫。所用數據各有來源,大量數據的人工標注及訓練語料準備也是各自為戰,重復標注語料的工作導致了人力和資源的浪費,缺少共享的語料庫。②中醫藥古籍文本的知識抽取的研究有待加強。由于中醫藥古籍文本的知識抽取存在缺乏自然分詞邊界、名稱不統一、修飾辭眾多等諸多難點,目前該領域知識抽取的數據來源大多為現代文獻。面向古漢語文獻知識自動抽取的相關研究也比較少[108],少量研究工作也僅基于單一古籍和單一方法(主要是條件隨機場(Conditional Random Fields, CRF)),其方法的可移植性與通用性未經過驗證。這使得進行中醫古籍文本的知識抽取研究時,可借鑒的成功經驗很少,可重復利用的資源嚴重匱乏。③知識產品的共享與復用需要更多嘗試。

            大部分中醫藥子領域是能共用部分或全部術語體系的,并且古籍或現代文本的語法特征和抽取方法也相近,共享知識產品可以通過直接提取、復用和融合等方式加快新產品的研究進度,也可以作為知識抽取新方法探索的訓練語料,或支撐下游技術研究和應用系統研制。④技術細節處理復雜。知識圖譜構建和應用過程中的多個環節,都可能用到復雜的數學、計算機、信息處理等領域技術,特別是當前人工智能高速發展的時期,性能較好的技術或方法往往也意味著細節復雜、實現難度較大,對進行相關研究而又非計算機專業的中醫藥領域學者是一項巨大挑戰。

            5 小結

            當前大數據和知識爆炸時代,知識圖譜已成為各領域知識工程基礎建設的重要方向。中醫藥是中華民族傳統文化的寶藏,將包括古籍文本在內的巨量中醫藥知識轉化為適應現代知識傳播、分享、處理和利用方式的圖譜形式存儲起來,并盡可能減少信息損失、保留知識原意,對中醫藥文化的傳承與創新發展有著不可估量的積極作用。知識圖譜在中醫藥領域應用前景廣闊,其構建與應用方法隨著認知智能各項關鍵技術的進步會逐漸變得更加智能化、平臺化、簡單化,將為中醫藥行業知識的深度應用做出更大貢獻。

            作者:曾子玲1,張華敏2,于 彤1,劉思鴻1,張 磊1,高宏杰1,陳廣坤1,佟 琳

          中文字幕中文有码在线
        2. <pre id="1e866"><s id="1e866"></s></pre>
            1. <td id="1e866"><ruby id="1e866"></ruby></td><td id="1e866"></td>
                <tr id="1e866"><label id="1e866"></label></tr>
              1. <pre id="1e866"><strong id="1e866"></strong></pre>

                <p id="1e866"></p>