导读 将来,我们或许能够使用大型语言模型 (LLM) 自动读取医疗记录中的临床记录,并可靠高效地提取相关信息以支持患者护理或研究。但哥伦比亚...
将来,我们或许能够使用大型语言模型 (LLM) 自动读取医疗记录中的临床记录,并可靠高效地提取相关信息以支持患者护理或研究。但哥伦比亚大学梅尔曼公共卫生学院最近的一项研究使用 ChatGPT-4 阅读急诊科入院记录,以确定受伤的踏板车和自行车骑手是否戴了头盔,结果发现 LLM 尚无法可靠地做到这一点。该研究结果发表在JAMANetwork Open 上。
在对 2019 年至 2022 年骑自行车、踏板车或其他微型交通工具时受伤的 54,569 名患者进行急诊就诊的研究中,人工智能法学硕士 (AI LLM) 难以复制基于文本字符串搜索的方法从临床记录中提取头盔状态的结果。
只有当提示包含基于文本字符串搜索的方法中使用的所有文本时,LLM 才能表现良好。LLM 也很难在连续五天的每次试验中重复其工作,它在重复幻觉方面比在准确工作方面做得更好。当短语被否定时,它尤其吃力,例如阅读“w/o 头盔”或“unhelmeted”并报告患者戴了头盔。
大量医学相关数据以书面临床笔记的形式包含在电子病历中,这是一种非结构化数据。高效地读取和提取这些笔记中的信息对于研究非常有用。
目前,可以使用简单的字符串匹配文本搜索方法或通过更复杂的基于人工智能 (AI) 的方法(例如自然语言处理)从这些临床记录中提取信息。人们希望新的 LLM(例如 ChatGPT-4)能够更快、更可靠地提取信息。
哥伦比亚大学梅尔曼学院流行病学教授、资深作者 Andrew Rundle 博士表示:“虽然我们看到使用生成式 AI LLM 进行信息提取任务可能会提高效率,但可靠性和幻觉问题目前限制了它的实用性。”