ChatPaper.aiChatPaper

의학: 임상 응용 프로그램에서 LLMs을 평가하기 위한 포괄적인 프레임워크로의 전환

MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications

September 11, 2024
저자: Praveen K Kanithi, Clément Christophe, Marco AF Pimentel, Tathagata Raha, Nada Saadi, Hamza Javed, Svetlana Maslenkova, Nasir Hayat, Ronnie Rajan, Shadab Khan
cs.AI

초록

의료 응용 프로그램을 위한 대규모 언어 모델(Large Language Models, LLMs)의 신속한 발전은 미국 의사 국가 시험 (USMLE)과 같은 자주 언급되는 벤치마크를 넘어 실제 성능을 더 잘 반영하기 위한 종합적인 평가를 촉발시켰다. 실제 세계 평가는 유용성의 중요한 지표이지만, LLM 진화의 속도를 따라가지 못하며, 배포 시에는 결과가 더 이상 유효하지 않을 가능성이 높다. 이러한 시간적 불일치는 특정 임상 응용 프로그램을 위한 모델 선택을 안내할 수 있는 종합적인 초기 평가를 필요로 한다. 우리는 의료 추론, 윤리와 편향, 데이터 및 언어 이해, 맥락 속 학습, 그리고 임상 안전이라는 다섯 가지 핵심 차원을 통해 LLMs를 평가하는 MEDIC를 소개한다. MEDIC는 참조 출력이 필요 없이 LLM의 성능을 커버리지와 환각 감지와 같은 영역에서 양적으로 평가하는 새로운 교차 검증 프레임워크를 특징으로 한다. 우리는 MEDIC를 사용하여 의료 질문 응답, 안전성, 요약, 노트 생성 및 기타 작업에 대한 LLMs를 평가한다. 우리의 결과는 모델 크기, 기준 대 의학적으로 세밀하게 조정된 모델, 그리고 허상이 적거나 추론 비용이 낮은 특정 모델 강점이 필요한 응용 프로그램을 위한 모델 선택에 대한 영향을 보여준다. MEDIC의 다면적 평가는 이러한 성능 트레이드 오프를 드러내며, 이론적 능력과 의료 분야에서의 실제 구현 사이의 간극을 메워주어 가장 유망한 모델이 다양한 의료 응용 프로그램에 대해 식별되고 적응되도록 보장한다.
English
The rapid development of Large Language Models (LLMs) for healthcare applications has spurred calls for holistic evaluation beyond frequently-cited benchmarks like USMLE, to better reflect real-world performance. While real-world assessments are valuable indicators of utility, they often lag behind the pace of LLM evolution, likely rendering findings obsolete upon deployment. This temporal disconnect necessitates a comprehensive upfront evaluation that can guide model selection for specific clinical applications. We introduce MEDIC, a framework assessing LLMs across five critical dimensions of clinical competence: medical reasoning, ethics and bias, data and language understanding, in-context learning, and clinical safety. MEDIC features a novel cross-examination framework quantifying LLM performance across areas like coverage and hallucination detection, without requiring reference outputs. We apply MEDIC to evaluate LLMs on medical question-answering, safety, summarization, note generation, and other tasks. Our results show performance disparities across model sizes, baseline vs medically finetuned models, and have implications on model selection for applications requiring specific model strengths, such as low hallucination or lower cost of inference. MEDIC's multifaceted evaluation reveals these performance trade-offs, bridging the gap between theoretical capabilities and practical implementation in healthcare settings, ensuring that the most promising models are identified and adapted for diverse healthcare applications.

Summary

AI-Generated Summary

PDF576November 16, 2024