ChatPaper.aiChatPaper

LiveMedBench : Un benchmark médical sans contamination pour les LLM avec évaluation automatisée par rubrique

LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

February 10, 2026
papers.authors: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI

papers.abstract

Le déploiement des grands modèles de langage (LLM) dans des contextes cliniques à haut risque exige une évaluation rigoureuse et fiable. Cependant, les benchmarks médicaux existants restent statiques et souffrent de deux limitations critiques : (1) la contamination des données, où les ensembles de test fuient involontairement dans les corpus d'entraînement, conduisant à des estimations de performance gonflées ; et (2) le décalage temporel, qui ne permet pas de capturer l'évolution rapide des connaissances médicales. De plus, les métriques d'évaluation actuelles pour le raisonnement clinique à réponse libre reposent souvent soit sur un chevauchement lexical superficiel (par exemple, ROUGE), soit sur une notation subjective par un LLM-juge, toutes deux inadéquates pour vérifier l'exactitude clinique. Pour combler ces lacunes, nous présentons LiveMedBench, un benchmark continuellement mis à jour, exempt de contamination et basé sur une grille d'évaluation, qui collecte hebdomadairement des cas cliniques réels provenant de communautés médicales en ligne, garantissant une séparation temporelle stricte avec les données d'entraînement des modèles. Nous proposons un Cadre de Curation Clinique Multi-Agent qui filtre le bruit des données brutes et valide l'intégrité clinique par rapport à des principes médicaux fondés sur des preuves. Pour l'évaluation, nous développons un Cadre d'Évaluation Automatisé Basé sur une Grille qui décompose les réponses des médecins en critères granulaires et spécifiques à chaque cas, obtenant un alignement bien plus fort avec les médecins experts qu'avec le LLM-juge. À ce jour, LiveMedBench comprend 2 756 cas réels couvrant 38 spécialités médicales et plusieurs langues, associés à 16 702 critères d'évaluation uniques. L'évaluation approfondie de 38 LLM révèle que même le modèle le plus performant n'atteint que 39,2 %, et que 84 % des modèles présentent une dégradation des performances sur les cas postérieurs à une date de coupure, confirmant les risques omniprésents de contamination des données. L'analyse des erreurs identifie en outre l'application contextuelle – et non les connaissances factuelles – comme le principal goulot d'étranglement, 35 à 48 % des échecs provenant de l'incapacité à adapter les connaissances médicales aux contraintes spécifiques du patient.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
PDF91February 13, 2026