AI時代,或更精確的說,通用人工智慧範疇底下大型語言模型(Large Language models, LLMs)的盛行時代,
不要假設窄頻LLM必然正確:有時,OpenEvidence可能「過於」循證,它可能會將「缺乏證據」(an absence of evidence)等同於「有證據證明不存在」(evidence of absence)。這可能導致它在某些情況下忽略了雖非嚴格循證,但在實務中仍有價值的資訊。
追蹤原始資訊來源:任何答案中的不一致之處都可以透過追蹤LLM提供的參考資料回到原始資訊來源來解決。仔細查閱原始文獻,您可以判斷哪個LLM提供了更準確或更全面的資訊,從而做出最終判斷。
身為醫療相關人員的我,如何具體、有效地將其融入日常工作仍是重要的課題。其中,面對醫療領域的問題是這篇文章所要分享的。
將LLM所提供的資訊,作為一個額外的視角或驗證工具[1],與您自己透過其他方式獲得的資訊進行比較和整合。
將LLM所提供的資訊,作為一個額外的視角或驗證工具[1],與您自己透過其他方式獲得的資訊進行比較和整合。
就如同以前用Google醫療問題,網站查到的網頁,你也不會將搜尋後第一項的資料都拿來用,而是將第一項到第十項評估統整後給出最後資訊,這也是我們人腦要去做判斷及思考的。
諮詢LLM之前,先透過自己的知識和傳統資源形成一個初步的看法,避免盲目遵循LLM的建議。
這有助於您在後續步驟中批判性地評估LLM的輸出。
在此我會將傳統醫學資源或者查詢的文獻,全部放到NotebookLM來統合(NotebookLM會基於我已認可的資料進行統合,換句話說,以我提供的資料閱讀,畢竟有些資料量適很大的),協助我形成我的意見。
第二,使用窄頻LLM(以搜尋資料範圍的寬窄來分類)來取得問題解答。
目前比較可靠的工具在醫學領域應該是OpenEvidence,(其他科學領域的SciSpace?或者Co-storm?)可獲得較好的文獻品質,以確保資訊的嚴謹性。此外,因為有被適當的調校,AI幻覺(AI Hallucination)率可能極低。但由於其範圍專一,可能存在盲點,忽略其他高品質但非學術期刊的資訊來源,這也是其侷限性。
使用工具常見的大語言模型Gemini(其中的Deep Reasearch,是我常使用的模式)、Perplexity(前述重症醫師Josh Farkas推薦使用)、ChatGPT(也是用它的Deep Research模式)
這類LLM檢視的資訊來源更為廣泛,除了學術文獻,還包括醫院協議、衛生部門網站、FDA藥品包裝說明書等,這些都是優秀且高度可靠的來源,也不乏有更新的資訊。
第三,使用寬頻LLM並帶有密集參考資料來取得問題解答。
使用工具常見的大語言模型Gemini(其中的Deep Reasearch,是我常使用的模式)、Perplexity(前述重症醫師Josh Farkas推薦使用)、ChatGPT(也是用它的Deep Research模式)
這類LLM檢視的資訊來源更為廣泛,除了學術文獻,還包括醫院協議、衛生部門網站、FDA藥品包裝說明書等,這些都是優秀且高度可靠的來源,也不乏有更新的資訊。
但是,其中也可能包含品質較低的網頁來源或是江湖消息或意見,因此批判性評估更顯重要。
對於最新或冷僻的醫學問題,寬頻LLM在尋找相關資訊來源方面可能更有效;也能夠提供更多元的視角和實務資訊。
但要注意:
對於最新或冷僻的醫學問題,寬頻LLM在尋找相關資訊來源方面可能更有效;也能夠提供更多元的視角和實務資訊。
但要注意:
引用來源(理想情況下是逐行引用,或者提示其引用來源)的提供。
AI模型(不同的AI模型具有不同的幻覺率)的選擇。
中性地提出問題:為了避免LLM產生帶有偏見的輸出,應以中立的方式提出問題。例如,不要問「藥物X有什麼好處?」,而應問「藥物X是否有益?」。
第四,批判性思考
最後也是最關鍵的環節,就是以批判性的思考,衡量你手上的資訊和知識,整合所有資訊並處理可能出現的不一致。其中有兩個要點要去思考。
不要假設窄頻LLM必然正確:有時,OpenEvidence可能「過於」循證,它可能會將「缺乏證據」(an absence of evidence)等同於「有證據證明不存在」(evidence of absence)。這可能導致它在某些情況下忽略了雖非嚴格循證,但在實務中仍有價值的資訊。
追蹤原始資訊來源:任何答案中的不一致之處都可以透過追蹤LLM提供的參考資料回到原始資訊來源來解決。仔細查閱原始文獻,您可以判斷哪個LLM提供了更準確或更全面的資訊,從而做出最終判斷。
結論
透過將LLMs作為強大的輔助工具,而非獨立的決策者,我們可以更好地利用其潛力,同時規避其固有的風險。來得出更為全面和可靠的醫學解答。參考資料
- Workum JD, van de Sande D, Gommers D, van Genderen ME. Bridging the gap: a practical step-by-step approach to warrant safe implementation of large language models in healthcare. Front Artif Intell. 2025 Jan 27;8:1504805. doi: 10.3389/frai.2025.1504805. PMID: 39931218; PMCID: PMC11808533.
- https://emcrit.org/pulmcrit/triple-threat-llms/
留言
張貼留言
歡迎提供您的想法或建議,感謝