ChatPaper.aiChatPaper

MEDIC: 臨床応用におけるLLMを評価する包括的フレームワークに向けて

MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications

September 11, 2024
著者: Praveen K Kanithi, Clément Christophe, Marco AF Pimentel, Tathagata Raha, Nada Saadi, Hamza Javed, Svetlana Maslenkova, Nasir Hayat, Ronnie Rajan, Shadab Khan
cs.AI

要旨

医療応用向けの大規模言語モデル(LLM)の急速な発展により、頻繁に引用されるUSMLEなどのベンチマークを超えた包括的な評価が求められています。実世界のパフォーマンスをより適切に反映するためには、実世界の評価が重要な指標である一方、LLMの進化のペースに遅れることが多く、展開時には結果が陳腐化する可能性が高いです。この時間的な不一致から、特定の臨床応用に向けたモデル選択を導く包括的な事前評価が必要とされます。私たちは、MEDICという枠組みを導入し、臨床能力の5つの重要な側面である医学的推論、倫理と偏り、データと言語理解、文脈に即した学習、臨床安全性を評価するものです。MEDICは、カバレッジや幻覚検出などの領域でLLMのパフォーマンスを定量化する新しい対照的な枠組みを特徴とし、参照出力を必要としません。私たちは、MEDICを用いて、医療問答、安全性、要約、ノート生成などのタスクでLLMを評価します。結果は、モデルサイズ、基準と医学的に微調整されたモデル、および特定のモデル強みを必要とするアプリケーションのモデル選択に対する影響を示し、幻覚の少なさや推論コストの低さなどの特定のモデル強みを必要とするアプリケーションに対するモデル選択に関する示唆を与えます。MEDICの多面的評価は、これらのパフォーマンスのトレードオフを明らかにし、理論的な能力と医療設定における実用的な実装とのギャップを埋め、最も有望なモデルが特定され、多様な医療応用に適応されることを確実にします。
English
The rapid development of Large Language Models (LLMs) for healthcare applications has spurred calls for holistic evaluation beyond frequently-cited benchmarks like USMLE, to better reflect real-world performance. While real-world assessments are valuable indicators of utility, they often lag behind the pace of LLM evolution, likely rendering findings obsolete upon deployment. This temporal disconnect necessitates a comprehensive upfront evaluation that can guide model selection for specific clinical applications. We introduce MEDIC, a framework assessing LLMs across five critical dimensions of clinical competence: medical reasoning, ethics and bias, data and language understanding, in-context learning, and clinical safety. MEDIC features a novel cross-examination framework quantifying LLM performance across areas like coverage and hallucination detection, without requiring reference outputs. We apply MEDIC to evaluate LLMs on medical question-answering, safety, summarization, note generation, and other tasks. Our results show performance disparities across model sizes, baseline vs medically finetuned models, and have implications on model selection for applications requiring specific model strengths, such as low hallucination or lower cost of inference. MEDIC's multifaceted evaluation reveals these performance trade-offs, bridging the gap between theoretical capabilities and practical implementation in healthcare settings, ensuring that the most promising models are identified and adapted for diverse healthcare applications.

Summary

AI-Generated Summary

PDF576November 16, 2024