ChatPaper.aiChatPaper

臨床テキスト要約:大規模言語モデルの適応により専門家のパフォーマンスを上回る可能性

Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts

September 14, 2023
著者: Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari
cs.AI

要旨

膨大なテキストデータを精査し、重要な情報を要約することは、臨床医の時間配分に多大な負担を課します。大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて非常に有望な成果を示していますが、多様な臨床要約タスクにおける有効性はまだ厳密に検証されていません。本研究では、8つのLLMに対してドメイン適応手法を適用し、6つのデータセットと4つの異なる要約タスク(放射線レポート、患者の質問、経過記録、医師と患者の対話)を網羅しました。詳細な定量的評価により、モデルと適応手法の間のトレードオフが明らかになり、LLMの最近の進歩が必ずしも改善された結果につながらない事例も示されました。さらに、6人の医師による臨床読者調査では、最適に適応されたLLMの要約が、完全性と正確性の点で人間の要約よりも好まれることが示されました。その後の質的分析では、LLMと人間の専門家がともに直面する共通の課題が明らかになりました。最後に、従来の定量的NLPメトリクスと読者調査のスコアを相関させることで、これらのメトリクスが医師の好みとどのように一致するかをより深く理解しました。本研究は、複数のタスクにおいてLLMが人間の専門家を凌駕する初めての証拠を示すものです。これは、LLMを臨床ワークフローに統合することで、文書化作業の負担を軽減し、臨床医がより個別化された患者ケアやその他の代替不可能な人間的な医療の側面に集中できるようになる可能性を示唆しています。
English
Sifting through vast textual data and summarizing key information imposes a substantial burden on how clinicians allocate their time. Although large language models (LLMs) have shown immense promise in natural language processing (NLP) tasks, their efficacy across diverse clinical summarization tasks has not yet been rigorously examined. In this work, we employ domain adaptation methods on eight LLMs, spanning six datasets and four distinct summarization tasks: radiology reports, patient questions, progress notes, and doctor-patient dialogue. Our thorough quantitative assessment reveals trade-offs between models and adaptation methods in addition to instances where recent advances in LLMs may not lead to improved results. Further, in a clinical reader study with six physicians, we depict that summaries from the best adapted LLM are preferable to human summaries in terms of completeness and correctness. Our ensuing qualitative analysis delineates mutual challenges faced by both LLMs and human experts. Lastly, we correlate traditional quantitative NLP metrics with reader study scores to enhance our understanding of how these metrics align with physician preferences. Our research marks the first evidence of LLMs outperforming human experts in clinical text summarization across multiple tasks. This implies that integrating LLMs into clinical workflows could alleviate documentation burden, empowering clinicians to focus more on personalized patient care and other irreplaceable human aspects of medicine.
PDF274December 15, 2024