LiveMedBench: Een Contaminatievrije Medische Benchmark voor LLM's met Geautomatiseerde Rubric-evaluatie
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
February 10, 2026
Auteurs: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI
Samenvatting
De inzet van Large Language Models (LLM's) in klinische settings met hoge risico's vereist een rigoureuze en betrouwbare evaluatie. Bestaande medische benchmarks blijven echter statisch en kampen met twee kritieke beperkingen: (1) datacontaminatie, waarbij testsetdata onbedoeld terechtkomen in de trainingscorpora, wat leidt tot opgeblazen prestatie-inschattingen; en (2) temporele misalignering, waardoor de snelle evolutie van medische kennis niet wordt weergegeven. Bovendien baseren huidige evaluatiemetrics voor open-einde klinisch redeneren zich vaak op oppervlakkige lexicale overlap (bijv. ROUGE) of op subjectieve beoordeling door een LLM als rechter (LLM-as-a-Judge), waarbij beide ontoereikend zijn voor het verifiëren van klinische correctheid. Om deze lacunes te overbruggen, introduceren wij LiveMedBench, een continu bijgewerkte, contaminatievrije en rubriekgebaseerde benchmark die wekelijks real-world klinische casussen oogst uit online medische gemeenschappen, waarbij strikte temporele scheiding van modeltrainingsdata wordt gegarandeerd. Wij stellen een Multi-Agent Clinical Curation Framework voor dat ruwe dataruis filtert en de klinische integriteit valideert tegen evidence-based medische principes. Voor de evaluatie ontwikkelen wij een geautomatiseerd, rubriekgebaseerd evaluatieraamwerk dat artsenantwoorden ontleedt in granulaire, casusspecifieke criteria, wat een aanzienlijk sterkere alignering met expert-artsen bereikt dan LLM-as-a-Judge. Tot op heden omvat LiveMedBench 2.756 real-world casussen, verspreid over 38 medische specialismen en meerdere talen, gekoppeld aan 16.702 unieke evaluatiecriteria. Uitgebreide evaluatie van 38 LLM's onthult dat zelfs het best presterende model slechts 39,2% haalt, en dat 84% van de modellen prestatievermindering vertoont op casussen na de afkapdatum, wat de alomtegenwoordige risico's van datacontaminatie bevestigt. Foutenanalyse identificeert verder contextuele toepassing – en niet feitelijke kennis – als het dominante knelpunt, waarbij 35-48% van de fouten voortkomt uit het onvermogen om medische kennis af te stemmen op patiëntspecifieke beperkingen.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.