ChatPaper.aiChatPaper

Generische große Sprachmodelle übertreffen klinische Werkzeuge bei medizinischen Benchmarks.

Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

December 1, 2025
papers.authors: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann
cs.AI

papers.abstract

Spezialisierte klinische KI-Assistenten halten zunehmend Einzug in die medizinische Praxis und werden oft als sicherer oder zuverlässiger dargestellt als allgemeine Large Language Models (LLMs). Im Gegensatz zu führenden Modellen werden diese klinischen Werkzeuge jedoch selten unabhängigen quantitativen Evaluierungen unterzogen, was trotz ihres wachsenden Einflusses auf Diagnose, Triage und Leitlinieninterpretation eine kritische Evidenzlücke schafft. Wir bewerteten zwei weit verbreitete klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) im Vergleich zu drei modernen generalistischen LLMs (GPT-5, Gemini 3 Pro und Claude Sonnet 4.5) anhand eines 1.000 Punkte umfassenden Mini-Benchmarks, der MedQA (medizinisches Wissen) und HealthBench (Ausrichtung an klinischen Abläufen) kombinierte. Die Generalisten übertrafen die klinischen Werkzeuge durchgängig, wobei GPT-5 die höchsten Werte erzielte, während OpenEvidence und UpToDate Defizite in Bezug auf Vollständigkeit, Kommunikationsqualität, Kontextbewusstsein und systemsicherheitsbasiertes Denken zeigten. Diese Ergebnisse zeigen, dass als klinische Entscheidungsunterstützung vermarktete Werkzeuge häufig hinter führenden LLMs zurückbleiben können, was die dringende Notwendigkeit transparenter, unabhängiger Evaluierungen vor dem Einsatz in patientenbezogenen Arbeitsabläufen unterstreicht.
English
Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.
PDF21December 3, 2025