LiveMedBench: un benchmark medico senza contaminazione per LLM con valutazione automatica tramite rubriche
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
February 10, 2026
Autori: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI
Abstract
L'implementazione di Large Language Model (LLM) in contesti clinici ad alto rischio richiede una valutazione rigorosa e affidabile. Tuttavia, i benchmark medici esistenti rimangono statici e soffrono di due limitazioni critiche: (1) la contaminazione dei dati, in cui i set di test vengono involontariamente inclusi nei corpora di addestramento, portando a stime di performance inflazionate; e (2) il disallineamento temporale, che non riesce a cogliere la rapida evoluzione delle conoscenze mediche. Inoltre, le metriche di valutazione attuali per il ragionamento clinico a risposta aperta si basano spesso su una superficiale sovrapposizione lessicale (ad es., ROUGE) o su punteggi soggettivi forniti da un LLM come giudice (LLM-as-a-Judge), entrambi inadeguati per verificare la correttezza clinica. Per colmare queste lacune, presentiamo LiveMedBench, un benchmark continuamente aggiornato, privo di contaminazione e basato su rubriche, che raccoglie settimanalmente casi clinici reali da comunità mediche online, garantendo una rigorosa separazione temporale dai dati di addestramento del modello. Proponiamo un Multi-Agent Clinical Curation Framework che filtra il rumore dei dati grezzi e convalida l'integrità clinica rispetto a principi medici basati sull'evidenza. Per la valutazione, sviluppiamo un Automated Rubric-based Evaluation Framework che scompone le risposte dei medici in criteri granulari e specifici per caso, raggiungendo un allineamento sostanzialmente più forte con i medici esperti rispetto al metodo LLM-as-a-Judge. Ad oggi, LiveMedBench comprende 2.756 casi reali che coprono 38 specialità mediche e più lingue, associati a 16.702 criteri di valutazione unici. Una valutazione estensiva di 38 LLM rivela che anche il modello con le migliori performance raggiunge solo il 39,2%, e l'84% dei modelli mostra un degrado delle performance su casi successivi al cutoff, confermando pervasivi rischi di contaminazione dei dati. L'analisi degli errori identifica inoltre l'applicazione contestuale – non la conoscenza fattuale – come il collo di bottiglia dominante, con il 35-48% degli errori derivanti dall'incapacità di adattare le conoscenze mediche ai vincoli specifici del paziente.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.