ChatPaper.aiChatPaper

일반 목적 대규모 언어 모델, 의료 벤치마크에서 임상 도구보다 우수한 성능

Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

December 1, 2025
저자: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann
cs.AI

초록

전문 임상 AI 어시스턴트가 의료 현장에 빠르게 도입되며 범용 대규모 언어 모델(LLM)보다 안전하거나 신뢰할 수 있다는 프레임으로 소개되고 있다. 그러나 최첨단 모델과 달리, 이러한 임상 도구는 진단, 환자 분류, 지침 해석에 미치는 영향력이 커짐에도 불구하고 독립적인 정량적 평가를 거의 받지 않아 중요한 증거 격차가 존재한다. 우리는 MedQA(의학 지식)와 HealthBench(임상의 협의) 과제를 결합한 1,000개 항목의 소규모 벤치마크를 사용하여 널리 보급된 두 가지 임상 AI 시스템(OpenEvidence 및 UpToDate Expert AI)을 세 가지 최신 범용 LLM(GPT-5, Gemini 3 Pro, Claude Sonnet 4.5)과 비교 평가했다. 범용 모델이 임상 도구보다 지속적으로 우수한 성능을 보였으며, GPT-5가 가장 높은 점수를 획득했다. 반면 OpenEvidence와 UpToDate는 완전성, 의사소통 품질, 상황 인식, 시스템 기반 안전 추론 측면에서 부족함을 보였다. 이러한 결과는 임상 의사결정 지원을 위해 마케팅되는 도구들이 종종 최첨단 LLM보다 뒤처질 수 있음을 보여주며, 환자 대면 업무 프로세스에 배포하기 전에 투명하고 독립적인 평가의 시급한 필요성을 강조한다.
English
Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.
PDF21December 3, 2025