Algemene grote taalmodelen presteren beter dan klinische tools op medische benchmarks
Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks
December 1, 2025
Auteurs: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann
cs.AI
Samenvatting
Gespecialiseerde klinische AI-assistenten doen in rap tempo hun intrede in de medische praktijk, waarbij ze vaak worden gepresenteerd als veiliger of betrouwbaarder dan algemene grote taalmodelen (LLM's). In tegenstelling tot frontier-modellen worden deze klinische hulpmiddelen echter zelden onderworpen aan onafhankelijke, kwantitatieve evaluatie, wat een kritieke kloof in de onderbouwing creëert, ondanks hun groeiende invloed op diagnose, triage en interpretatie van richtlijnen. Wij evalueerden twee veelgebruikte klinische AI-systemen (OpenEvidence en UpToDate Expert AI) tegenover drie state-of-the-art generalistische LLM's (GPT-5, Gemini 3 Pro en Claude Sonnet 4.5) met behulp van een mini-benchmark van 1.000 items, bestaande uit een combinatie van MedQA-taken (medische kennis) en HealthBench-taken (afstemming met clinici). De generalistische modellen presteerden consistent beter dan de klinische hulpmiddelen, waarbij GPT-5 de hoogste scores behaalde, terwijl OpenEvidence en UpToDate tekortkomingen vertoonden op het gebied van volledigheid, communicatiekwaliteit, contextbewustzijn en veiligheidsredenering op systeemniveau. Deze bevindingen tonen aan dat hulpmiddelen die op de markt worden gebracht voor klinische beslissingsondersteuning vaak achterlopen bij frontier-LLM's, wat de dringende behoefte onderstreept aan transparante, onafhankelijke evaluatie vóór implementatie in patiëntgerichte werkstromen.
English
Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.