LiveMedBench: un benchmark medico senza contaminazione per LLM con valutazione automatica tramite rubriche

Abstract

L'implementazione di Large Language Model (LLM) in contesti clinici ad alto rischio richiede una valutazione rigorosa e affidabile. Tuttavia, i benchmark medici esistenti rimangono statici e soffrono di due limitazioni critiche: (1) la contaminazione dei dati, in cui i set di test vengono involontariamente inclusi nei corpora di addestramento, portando a stime di performance inflazionate; e (2) il disallineamento temporale, che non riesce a cogliere la rapida evoluzione delle conoscenze mediche. Inoltre, le metriche di valutazione attuali per il ragionamento clinico a risposta aperta si basano spesso su una superficiale sovrapposizione lessicale (ad es., ROUGE) o su punteggi soggettivi forniti da un LLM come giudice (LLM-as-a-Judge), entrambi inadeguati per verificare la correttezza clinica. Per colmare queste lacune, presentiamo LiveMedBench, un benchmark continuamente aggiornato, privo di contaminazione e basato su rubriche, che raccoglie settimanalmente casi clinici reali da comunità mediche online, garantendo una rigorosa separazione temporale dai dati di addestramento del modello. Proponiamo un Multi-Agent Clinical Curation Framework che filtra il rumore dei dati grezzi e convalida l'integrità clinica rispetto a principi medici basati sull'evidenza. Per la valutazione, sviluppiamo un Automated Rubric-based Evaluation Framework che scompone le risposte dei medici in criteri granulari e specifici per caso, raggiungendo un allineamento sostanzialmente più forte con i medici esperti rispetto al metodo LLM-as-a-Judge. Ad oggi, LiveMedBench comprende 2.756 casi reali che coprono 38 specialità mediche e più lingue, associati a 16.702 criteri di valutazione unici. Una valutazione estensiva di 38 LLM rivela che anche il modello con le migliori performance raggiunge solo il 39,2%, e l'84% dei modelli mostra un degrado delle performance su casi successivi al cutoff, confermando pervasivi rischi di contaminazione dei dati. L'analisi degli errori identifica inoltre l'applicazione contestuale – non la conoscenza fattuale – come il collo di bottiglia dominante, con il 35-48% degli errori derivanti dall'incapacità di adattare le conoscenze mediche ai vincoli specifici del paziente.

English

The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.

LiveMedBench: un benchmark medico senza contaminazione per LLM con valutazione automatica tramite rubriche

LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

Abstract

Support