Los modelos de lenguaje extensos generalistas superan a las herramientas clínicas en evaluaciones médicas.
Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks
December 1, 2025
Autores: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann
cs.AI
Resumen
Los asistentes de IA clínicos especializados se están incorporando rápidamente a la práctica médica, presentándose a menudo como más seguros o confiables que los modelos de lenguaje extenso (LLM) de propósito general. Sin embargo, a diferencia de los modelos de vanguardia, estas herramientas clínicas rara vez son sometidas a evaluaciones cuantitativas e independientes, lo que genera una brecha crítica de evidencia a pesar de su creciente influencia en el diagnóstico, la clasificación de pacientes (triage) y la interpretación de guías clínicas. Evaluamos dos sistemas de IA clínica ampliamente implementados (OpenEvidence y UpToDate Expert AI) frente a tres LLM generalistas de última generación (GPT-5, Gemini 3 Pro y Claude Sonnet 4.5) utilizando un mini-benchmark de 1,000 ítems que combina tareas de MedQA (conocimiento médico) y HealthBench (alineación con criterios clínicos). Los modelos generalistas superaron consistentemente a las herramientas clínicas, con GPT-5 logrando las puntuaciones más altas, mientras que OpenEvidence y UpToDate mostraron deficiencias en exhaustividad, calidad de la comunicación, conciencia contextual y razonamiento de seguridad basado en sistemas. Estos hallazgos revelan que las herramientas comercializadas para el apoyo a la decisión clínica pueden a menudo estar por detrás de los LLM de vanguardia, subrayando la necesidad urgente de una evaluación transparente e independiente antes de su implementación en flujos de trabajo asistenciales.
English
Specialized clinical AI assistants are rapidly entering medical practice, often framed as safer or more reliable than general-purpose large language models (LLMs). Yet, unlike frontier models, these clinical tools are rarely subjected to independent, quantitative evaluation, creating a critical evidence gap despite their growing influence on diagnosis, triage, and guideline interpretation. We assessed two widely deployed clinical AI systems (OpenEvidence and UpToDate Expert AI) against three state-of-the-art generalist LLMs (GPT-5, Gemini 3 Pro, and Claude Sonnet 4.5) using a 1,000-item mini-benchmark combining MedQA (medical knowledge) and HealthBench (clinician-alignment) tasks. Generalist models consistently outperformed clinical tools, with GPT-5 achieving the highest scores, while OpenEvidence and UpToDate demonstrated deficits in completeness, communication quality, context awareness, and systems-based safety reasoning. These findings reveal that tools marketed for clinical decision support may often lag behind frontier LLMs, underscoring the urgent need for transparent, independent evaluation before deployment in patient-facing workflows.