北大計(jì)算機(jī)學(xué)院再登國際AI頂刊,張銘教授團(tuán)隊(duì)揭露醫(yī)療AI致命漏洞
【新智元導(dǎo)讀】北京大學(xué)計(jì)算機(jī)學(xué)院張銘教授團(tuán)隊(duì)聯(lián)合華盛頓大學(xué)等團(tuán)隊(duì),再次登上國際AI頂刊。研究發(fā)現(xiàn),只需要一篇惡意文本,就能顯著誤導(dǎo)推理系統(tǒng)對(duì)相應(yīng)藥物-疾病關(guān)系的認(rèn)知,同時(shí)對(duì)此提出了高效的防御手段。
從科研文本中構(gòu)建的生物醫(yī)學(xué)知識(shí)圖譜,已被廣泛應(yīng)用于輔助醫(yī)學(xué)決策和挖掘新的醫(yī)學(xué)發(fā)現(xiàn)。
同時(shí),大語言模型已經(jīng)展示出了生成高質(zhì)量文本的強(qiáng)大能力,此類文本在產(chǎn)生正面效益的同時(shí),也可能污染公開數(shù)據(jù)庫,造成不可控的負(fù)面影響。
基于這些受污染數(shù)據(jù)庫構(gòu)建的醫(yī)學(xué)知識(shí)圖譜推理系統(tǒng)面臨潛在風(fēng)險(xiǎn),可能影響藥物推薦和疾病研究等決策,甚至對(duì)患者的治療效果和安全構(gòu)成威脅。
因此,揭示并準(zhǔn)確評(píng)估這種風(fēng)險(xiǎn),并制定相應(yīng)的防御策略,在當(dāng)今大模型和知識(shí)圖譜推理廣泛應(yīng)用的背景下,具有十分重要且緊迫的研究意義。
2024年9月20日,北京大學(xué)計(jì)算機(jī)學(xué)院張銘教授團(tuán)隊(duì)聯(lián)合華盛頓大學(xué)助理教授王晟、博士后肖之屏在國際頂尖人工智能期刊Nature Machine Intelligence(簡稱NMI,最新影響因子為18.8)上發(fā)表了題為:Poisoning medical knowledge using large language models的研究論文。
論文開發(fā)了名為Scorpius的條件文本生成系統(tǒng),該系統(tǒng)利用大模型為指定的藥物-疾病關(guān)系對(duì)生成惡意文本。
論文發(fā)現(xiàn),只需要一篇惡意文本,就能顯著誤導(dǎo)推理系統(tǒng)對(duì)相應(yīng)藥物-疾病關(guān)系的認(rèn)知。
同時(shí),論文還提出了高效的防御手段來減少這種誤導(dǎo)所產(chǎn)生的負(fù)面影響。
論文地址:https://rdcu.be/dUytb
Scorpius的訓(xùn)練數(shù)據(jù)、代碼、模型已開源:https://github.com/yjwtheonly/Scorpius
Scorpius的可交互服務(wù)器:https://huggingface.co/spaces/yjwtheonly/Scorpius_HF
Scorpius:利用大語言模型投毒醫(yī)學(xué)知識(shí)
從醫(yī)學(xué)文獻(xiàn)中構(gòu)建的生物醫(yī)學(xué)知識(shí)圖譜已被廣泛用于驗(yàn)證生物醫(yī)學(xué)事實(shí)并生成新發(fā)現(xiàn)。
最近,大語言模型展示了生成文本數(shù)據(jù)的強(qiáng)大能力。盡管大多數(shù)這些文本數(shù)據(jù)是有用的,大語言模型也可能被用于生成惡意內(nèi)容。
研究團(tuán)隊(duì)研究了是否可能使用大語言模型生成惡意論文,從而毒害醫(yī)學(xué)知識(shí)圖譜并進(jìn)一步影響后續(xù)的生物醫(yī)學(xué)應(yīng)用。
為了探索這一問題,團(tuán)隊(duì)開發(fā)了Scorpius,這是一個(gè)條件文本生成模型,能夠針對(duì)給定的推銷藥物和目標(biāo)疾病生成惡意論文摘要。其目標(biāo)是通過將這一惡意摘要與數(shù)百萬篇真實(shí)論文混合來影響醫(yī)學(xué)知識(shí)圖譜的構(gòu)建,進(jìn)而欺騙圖譜使用者,使他們誤認(rèn)為該推銷的藥物與目標(biāo)疾病高度相關(guān)。
研究團(tuán)隊(duì)在基于3,818,528篇論文構(gòu)建的知識(shí)圖譜上對(duì)Scorpius進(jìn)行了評(píng)估,結(jié)果表明僅通過添加一篇惡意摘要,Scorpius就能將71.3%的藥物-疾病對(duì)的相關(guān)性從1000名之外提升到前10名。同時(shí)Scorpius生成的摘要在六項(xiàng)評(píng)估指標(biāo)上都表現(xiàn)出了難以被有效檢測的特性。
審稿人指出,Scorpius能通過文本影響圖譜構(gòu)建進(jìn)而操縱下游推理的現(xiàn)象,揭露了基于公開數(shù)據(jù)集的醫(yī)學(xué)知識(shí)發(fā)現(xiàn)流程中的一個(gè)高危漏洞,這凸顯了在大模型時(shí)代針對(duì)此類有毒攻擊設(shè)計(jì)強(qiáng)大防御體系的必要性。
圖2 利用大模型毒害醫(yī)學(xué)圖譜推理系統(tǒng)的概覽
(a)常見的從文本數(shù)據(jù)庫中抽取醫(yī)學(xué)知識(shí)圖譜,隨后進(jìn)行圖譜推理產(chǎn)生醫(yī)學(xué)發(fā)現(xiàn)的流程;(b)利用大模型生成惡意醫(yī)學(xué)摘要,將其混入真實(shí)文本數(shù)據(jù)庫,進(jìn)而毒害圖譜構(gòu)建,并誤導(dǎo)推理結(jié)果
對(duì)于一個(gè)從文本數(shù)據(jù)庫到產(chǎn)生推理結(jié)果的完整知識(shí)發(fā)現(xiàn)流程,研究團(tuán)隊(duì)分別驗(yàn)證了基于圖譜完成推理、基于文本數(shù)據(jù)庫構(gòu)建圖譜以及整個(gè)全流程的可毒害性。
圖3 醫(yī)學(xué)知識(shí)圖譜推理的可毒害性
(a-c)針對(duì)特定藥物-疾病對(duì)的毒害結(jié)果,在不同推理方式的評(píng)估中,添加一條惡意連邊均能顯著提升目標(biāo)關(guān)系的排名;(d-f)疾病無關(guān)的毒害結(jié)果,隨著添加惡意連邊數(shù)量的增加,毒害效果逐漸增強(qiáng);(g)加入多條惡意連邊的影響以及高敏感節(jié)點(diǎn)的發(fā)現(xiàn)
首先,研究人員通過在已構(gòu)建圖譜上直接添加惡意連邊的方式評(píng)估圖譜推理的可毒害性。
研究發(fā)現(xiàn),對(duì)于只針對(duì)特定藥物-疾病的毒害,只需要添加一條連邊,經(jīng)典的DistMult、ConvE和ComplEx推理方式便均會(huì)被誤導(dǎo)到指定結(jié)果上,使得目標(biāo)藥物-疾病的相關(guān)性排名大幅上升(圖3 a-c)。
而對(duì)于不針對(duì)特定疾病,旨在提升某一藥物全局重要性的毒害,圖譜推理系統(tǒng)則表現(xiàn)出了更強(qiáng)的抵抗性,需要添加多條惡意連邊才能達(dá)成毒害目的(圖3 d-f)。
同時(shí),研究還揭示了圖譜中存在高敏感的中心節(jié)點(diǎn),這意味著添加與之相關(guān)的惡意連邊更容易達(dá)成毒害目的(圖3 g)。
這一系列結(jié)果表明,圖譜推理系統(tǒng)的自我糾錯(cuò)能力較低,容易被毒害誤導(dǎo)。
圖4 醫(yī)學(xué)知識(shí)圖譜構(gòu)建的可毒害性
(a)利用隨機(jī)替換進(jìn)行文本改寫;(b-e)在不同替換比例下使用多種圖譜抽取工具時(shí)的毒害成功率
其次,研究團(tuán)隊(duì)驗(yàn)證了從文本數(shù)據(jù)中抽取知識(shí)圖譜這一過程的可毒害性。
研究發(fā)現(xiàn),即使對(duì)真實(shí)文本進(jìn)行大量的簡單替換改寫,即使改寫后的文本質(zhì)量顯著降低(圖4 a),現(xiàn)有的圖譜抽取工具(包括醫(yī)學(xué)專家知識(shí)驅(qū)動(dòng)的GNBR,以及通用數(shù)據(jù)驅(qū)動(dòng)的UIE、TDERR和LUKE)依然能抽取出目標(biāo)關(guān)系(圖4 b-e)。
這一結(jié)果表明各種更高性能的大模型都能有效欺騙相關(guān)圖譜抽取模型。
圖5 利用大模型從文本源頭毒害醫(yī)學(xué)圖譜推理系統(tǒng)
(a-c)生成惡意醫(yī)學(xué)摘要并驗(yàn)證毒害效果的流程圖。首先識(shí)別最具毒害收益且隱蔽的惡意連邊,隨后生成對(duì)應(yīng)惡意摘要,最后進(jìn)行領(lǐng)域適配改寫;(d-f)不同防御強(qiáng)度下的毒害結(jié)果。在較低防御強(qiáng)度下,毒害目標(biāo)被輕易達(dá)成(d);隨著防御的增強(qiáng)(e,f),毒害造成的影響逐漸減。唬╣-h)不同模型在不同防御強(qiáng)度下的毒害結(jié)果。Scorpius一致地取得了最強(qiáng)的毒害效果
最終,研究團(tuán)隊(duì)開發(fā)了利用大模型從文本數(shù)據(jù)庫端毒害圖譜推理系統(tǒng)的Scorpius模型。
對(duì)于給定的毒害目標(biāo),Scorpius首先基于有害性和隱蔽性的綜合考量來選擇惡意連邊,隨后采用模板提示+大模型生成+領(lǐng)域適配改寫的方式生成對(duì)應(yīng)的惡意摘要文本。
最后,Scorpius將生成的惡意摘要和包含百萬篇真實(shí)paper的數(shù)據(jù)庫混合,從頭構(gòu)建圖譜并完成推理,并比較毒害目標(biāo)在推理系統(tǒng)中的排名變化(圖5a-c)。
結(jié)果表明,現(xiàn)有的大模型GPT-3.5,GPT-4,F(xiàn)inetune-GPT-3.5,RAG-GPT-3.5,RAG-GPT-4均能達(dá)成毒害目的,而Scorpius取得了最強(qiáng)的毒害效果(圖5 d-h)。
此外,研究還發(fā)現(xiàn),采用更強(qiáng)的defender,建立更大更多元的醫(yī)學(xué)知識(shí)圖譜,使用專家審議的數(shù)據(jù)庫取代預(yù)印本數(shù)據(jù)庫均能在一定程度上降低這種毒害帶來的影響。
總的來說,研究團(tuán)隊(duì)不僅衡量了醫(yī)學(xué)圖譜推理系統(tǒng)中各環(huán)節(jié)的可毒害性,進(jìn)而揭示并定量評(píng)估了大模型的誤用對(duì)醫(yī)學(xué)發(fā)現(xiàn)可能造成的誤導(dǎo),而且從defender設(shè)計(jì)和數(shù)據(jù)增強(qiáng)的角度對(duì)減少此類毒害做出了探索。
這些結(jié)果展現(xiàn)了基于公開數(shù)據(jù)集的醫(yī)學(xué)圖譜推理存在的高危漏洞,為在大模型時(shí)代開展更可信的醫(yī)學(xué)知識(shí)發(fā)現(xiàn)開辟了新的研究思路。
作者介紹
論文一作楊君維為北京大學(xué)計(jì)算機(jī)學(xué)院三年級(jí)博士生,導(dǎo)師為張銘教授。
王晟和肖之屏也是北京大學(xué)信息學(xué)院計(jì)算機(jī)系校友,都與張銘教授團(tuán)隊(duì)有多年的合作。
北大團(tuán)隊(duì)成員還有碩士留學(xué)生Srbuhi Mirzoyan,博士生劉澤群,博士后琚瑋、劉盧琛。