ChatPaper.aiChatPaper

Les grands modèles de langage généralistes surpassent les outils cliniques sur les référentiels médicaux

Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

December 1, 2025
papers.authors: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann
cs.AI

papers.abstract

Les assistants d'IA clinique spécialisés font une entrée rapide dans la pratique médicale, souvent présentés comme plus sûrs ou plus fiables que les grands modèles de langage (LLM) généralistes. Pourtant, contrairement aux modèles de pointe, ces outils cliniques sont rarement soumis à une évaluation quantitative indépendante, créant ainsi un déficit de preuves critique malgré leur influence croissante sur le diagnostic, le triage et l'interprétation des recommandations. Nous avons évalué deux systèmes d'IA clinique largement déployés (OpenEvidence et UpToDate Expert AI) par rapport à trois LLM généralistes de pointe (GPT-5, Gemini 3 Pro et Claude Sonnet 4.5) en utilisant un mini-benchmark de 1 000 items combinant les tâches MedQA (connaissances médicales) et HealthBench (alignement clinicien). Les modèles généralistes ont systématiquement surpassé les outils cliniques, GPT-5 obtenant les scores les plus élevés, tandis qu'OpenEvidence et UpToDate ont montré des lacunes en matière d'exhaustivité, de qualité de communication, de conscience contextuelle et de raisonnement sécuritaire basé sur les systèmes. Ces résultats révèlent que les outils commercialisés pour le soutien décisionnel clinique peuvent souvent être à la traîne par rapport aux LLM de pointe, soulignant le besoin urgent d'une évaluation indépendante et transparente avant leur déploiement dans les flux de travail en contact avec les patients.
English
Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.
PDF21December 3, 2025