LiveMedBench: Ein kontaminationsfreier medizinischer Benchmark für LLMs mit automatisierter Bewertung anhand von Rubriken
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
February 10, 2026
papers.authors: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI
papers.abstract
Der Einsatz von großen Sprachmodellen (LLMs) in risikoreichen klinischen Umgebungen erfordert eine rigorose und zuverlässige Evaluation. Bisherige medizinische Benchmarks sind jedoch statisch und weisen zwei kritische Einschränkungen auf: (1) Datenkontamination, bei der Testdatensätze unbeabsichtigt in Trainingskorpora gelangen und zu überhöhten Leistungsschätzungen führen, und (2) zeitliche Fehlausrichtung, die die rasche Entwicklung des medizinischen Wissens nicht abbildet. Darüber hinaus stützen sich aktuelle Bewertungsmetriken für freie klinische Denkprozesse oft entweder auf flache lexikalische Übereinstimmungen (z.B. ROUGE) oder auf subjektive LLM-as-a-Judge-Bewertungen, die beide unzureichend für die Überprüfung der klinischen Korrektheit sind. Um diese Lücken zu schließen, stellen wir LiveMedBench vor, einen kontinuierlich aktualisierten, kontaminationsfreien und kriterienbasierten Benchmark, der wöchentlich reale klinische Fälle aus Online-Medizingemeinschaften erfasst und eine strikte zeitliche Trennung von Modelltrainingsdaten gewährleistet. Wir schlagen ein Multi-Agenten-Framework zur klinischen Kuratierung vor, das Rauschdaten filtert und die klinische Integrität anhand evidenzbasierter medizinischer Prinzipien validiert. Für die Evaluation entwickeln wir ein automatisiertes, kriterienbasiertes Bewertungsframework, das Arztantworten in granulare, fallspezifische Kriterien zerlegt und eine wesentlich stärkere Übereinstimmung mit Fachärzten erreicht als LLM-as-a-Judge. Bislang umfasst LiveMedBench 2.756 reale Fälle aus 38 medizinischen Fachgebieten und mehreren Sprachen, die mit 16.702 einzigartigen Bewertungskriterien verknüpft sind. Eine umfassende Evaluation von 38 LLMs zeigt, dass sogar das leistungsstärkste Modell nur 39,2 % erreicht, und 84 % der Modelle eine Leistungsverschlechterung bei Fällen nach dem Stichtag aufweisen, was die allgegenwärtigen Risiken von Datenkontamination bestätigt. Eine Fehleranalyse identifiziert weiterhin die kontextuelle Anwendung – nicht das Faktenwissen – als dominantes Hindernis, wobei 35–48 % der Fehler auf die Unfähigkeit zurückzuführen sind, medizinisches Wissen auf patientenspezifische Einschränkungen zuzuschneiden.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.