LiveMedBench: 自動評価ルーブリックによるLLMのための汚染フリー医療ベンチマーク
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
February 10, 2026
著者: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI
要旨
大規模言語モデル(LLM)を高リスク臨床環境に導入するには、厳密かつ信頼性の高い評価が求められる。しかし、既存の医療ベンチマークは静的であり、二つの重大な限界を抱えている:(1) テストデータが訓練データに意図せず混入するデータ汚染により、性能評価が過大になること、(2) 医学知識の急速な進化を捉えられない時間的ずれである。さらに、自由記述型の臨床推論を評価する現行の指標は、表面的な語彙の重なり(ROUGEなど)か、主観的なLLM-as-a-Judgeによる採点に依存しており、いずれも臨床的正しさを検証するには不十分である。これらの課題を解決するため、我々はLiveMedBenchを提案する。これは、オンライン医療コミュニティから現実の臨床症例を週次で収集し、モデル訓練データとの厳密な時間的分離を保証する、継続的に更新され、汚染がなく、ルーブリックに基づくベンチマークである。我々は、生データのノイズをフィルタリングし、根拠に基づく医療原則に照らして臨床的整合性を検証するマルチエージェント臨床選定フレームワークを提案する。評価においては、医師の回答を細分化された症例特異的基準に分解する自動ルーブリック評価フレームワークを開発し、LLM-as-a-Judgeよりも専門医の評価とはるかに強く一致する結果を得た。現在までに、LiveMedBenchは38の診療科と複数言語にわたる2,756の現実症例と、16,702の独自の評価基準を包含する。38のLLMに対する広範な評価により、最高性能のモデルでさえ39.2%の正答率に留まり、84%のモデルがカットオフ日後の症例で性能劣化を示し、データ汚染リスクが広範に存在することが確認された。誤り分析からは、事実知識ではなく文脈への応用が主要なボトルネックであることが明らかになり、失敗の35-48%は患者特異的な制約に医学知識を適応できないことに起因していた。
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.