ChatPaper.aiChatPaper

LiveMedBench: Un punto de referencia médico libre de contaminación para LLM con evaluación automatizada mediante rúbricas

LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

February 10, 2026
Autores: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI

Resumen

La implementación de modelos de lenguaje extensos (LLM) en entornos clínicos de alto riesgo exige una evaluación rigurosa y fiable. Sin embargo, los puntos de referencia médicos existentes siguen siendo estáticos y adolecen de dos limitaciones críticas: (1) la contaminación de datos, donde los conjuntos de prueba se filtran inadvertidamente a los corpus de entrenamiento, lo que genera estimaciones de rendimiento infladas; y (2) el desfase temporal, que no logra capturar la rápida evolución del conocimiento médico. Además, las métricas de evaluación actuales para el razonamiento clínico de respuesta abierta a menudo dependen de una superposición léxica superficial (por ejemplo, ROUGE) o de una puntuación subjetiva mediante un LLM como juez, ambas inadecuadas para verificar la corrección clínica. Para salvar estas brechas, presentamos LiveMedBench, un punto de referencia continuamente actualizado, libre de contaminación y basado en rúbricas, que recopila semanalmente casos clínicos del mundo real de comunidades médicas en línea, garantizando una separación temporal estricta de los datos de entrenamiento de los modelos. Proponemos un Marco de Curación Clínica Multiagente que filtra el ruido de los datos brutos y valida la integridad clínica frente a principios médicos basados en la evidencia. Para la evaluación, desarrollamos un Marco de Evaluación Automatizado Basado en Rúbricas que descompone las respuestas médicas en criterios granulares y específicos de cada caso, logrando una alineación sustancialmente mayor con médicos expertos que el método de LLM como juez. Hasta la fecha, LiveMedBench comprende 2.756 casos del mundo real que abarcan 38 especialidades médicas y múltiples idiomas, junto con 16.702 criterios de evaluación únicos. La evaluación exhaustiva de 38 LLM revela que incluso el modelo con mejor rendimiento alcanza solo un 39,2%, y que el 84% de los modelos muestran una degradación del rendimiento en casos posteriores a la fecha límite, lo que confirma los riesgos generalizados de contaminación de datos. El análisis de errores identifica además la aplicación contextual—no el conocimiento factual—como el cuello de botella dominante, ya que entre el 35% y el 48% de los fallos provienen de la incapacidad de adaptar el conocimiento médico a las restricciones específicas del paciente.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
PDF91February 13, 2026