臨床テキスト要約:大規模言語モデルの適応により専門家のパフォーマンスを上回る可能性
Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts
September 14, 2023
著者: Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari
cs.AI
要旨
膨大なテキストデータを精査し、重要な情報を要約することは、臨床医の時間配分に多大な負担を課します。大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて非常に有望な成果を示していますが、多様な臨床要約タスクにおける有効性はまだ厳密に検証されていません。本研究では、8つのLLMに対してドメイン適応手法を適用し、6つのデータセットと4つの異なる要約タスク(放射線レポート、患者の質問、経過記録、医師と患者の対話)を網羅しました。詳細な定量的評価により、モデルと適応手法の間のトレードオフが明らかになり、LLMの最近の進歩が必ずしも改善された結果につながらない事例も示されました。さらに、6人の医師による臨床読者調査では、最適に適応されたLLMの要約が、完全性と正確性の点で人間の要約よりも好まれることが示されました。その後の質的分析では、LLMと人間の専門家がともに直面する共通の課題が明らかになりました。最後に、従来の定量的NLPメトリクスと読者調査のスコアを相関させることで、これらのメトリクスが医師の好みとどのように一致するかをより深く理解しました。本研究は、複数のタスクにおいてLLMが人間の専門家を凌駕する初めての証拠を示すものです。これは、LLMを臨床ワークフローに統合することで、文書化作業の負担を軽減し、臨床医がより個別化された患者ケアやその他の代替不可能な人間的な医療の側面に集中できるようになる可能性を示唆しています。
English
Sifting through vast textual data and summarizing key information imposes a
substantial burden on how clinicians allocate their time. Although large
language models (LLMs) have shown immense promise in natural language
processing (NLP) tasks, their efficacy across diverse clinical summarization
tasks has not yet been rigorously examined. In this work, we employ domain
adaptation methods on eight LLMs, spanning six datasets and four distinct
summarization tasks: radiology reports, patient questions, progress notes, and
doctor-patient dialogue. Our thorough quantitative assessment reveals
trade-offs between models and adaptation methods in addition to instances where
recent advances in LLMs may not lead to improved results. Further, in a
clinical reader study with six physicians, we depict that summaries from the
best adapted LLM are preferable to human summaries in terms of completeness and
correctness. Our ensuing qualitative analysis delineates mutual challenges
faced by both LLMs and human experts. Lastly, we correlate traditional
quantitative NLP metrics with reader study scores to enhance our understanding
of how these metrics align with physician preferences. Our research marks the
first evidence of LLMs outperforming human experts in clinical text
summarization across multiple tasks. This implies that integrating LLMs into
clinical workflows could alleviate documentation burden, empowering clinicians
to focus more on personalized patient care and other irreplaceable human
aspects of medicine.