ChatPaper.aiChatPaper

LiveMedBench: 자동 채점 기준을 갖춘 LLM용 오염 없는 의료 벤치마크

LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

February 10, 2026
저자: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI

초록

대규모 언어 모델(LLM)을 위험도가 높은 임상 환경에 적용하기 위해서는 엄격하고 신뢰할 수 있는 평가가 필요합니다. 그러나 기존의 의료 벤치마크는 정적 상태로 남아 있어 두 가지 중요한 한계를 지닙니다: (1) 테스트 세트가 의도치 않게 학습 코퍼스에 유출되어 성능 추정치가 과장되는 데이터 오염 문제와 (2) 의학 지식의 빠른 진화를 제대로 반영하지 못하는 시간적 부정합 문제입니다. 더욱이 개방형 임상 추론을 위한 현재의 평가 지표는 피상적인 어휘 중첩(예: ROUGE)이나 주관적인 LLM-as-a-Judge 평가에 의존하는 경우가 많아, 임상적 정확성을 검증하기에는 부적합합니다. 이러한 격차를 해소하기 위해 우리는 LiveMedBench를 소개합니다. 이는 지속적으로 업데이트되며, 오염이 없고, 루브릭 기반의 벤치마크로, 온라인 의료 커뮤니티에서 실제 임상 사례를 주단위로 수집하여 모델 학습 데이터와의 엄격한 시간적 분리를 보장합니다. 우리는 원시 데이터의 노이즈를 필터링하고 근거 기반 의학 원칙에 따라 임상 무결성을 검증하는 다중 에이전트 임상 큐레이션 프레임워크를 제안합니다. 평가를 위해 우리는 의사의 응답을 세분화된 사례별 기준으로 분해하는 자동화된 루브릭 기반 평가 프레임워크를 개발하여 LLM-as-a-Judge 방식보다 전문 의사 평가와 훨씬 더 강력한 일치도를 달성했습니다. 현재까지 LiveMedBench는 38개 의학 전문 분야와 여러 언어에 걸친 2,756개의 실제 사례와 16,702개의 고유 평가 기준으로 구성되어 있습니다. 38개의 LLM에 대한 광범위한 평가 결과, 가장 성능이 좋은 모델조차 39.2%에 그치며, 84%의 모델이 컷오프 이후 사례에서 성능 저하를 보여 데이터 오염 위험이 만연함을 확인했습니다. 오류 분석은 더 나아가 사실적 지식이 아닌 맥락적 적용 능력을 주요 병목 현상으로 규정했으며, 실패 사례의 35-48%가 환자별 제약 조건에 맞게 의학 지식을 적용하지 못한 데서 비롯됨을 밝혔습니다.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
PDF91February 13, 2026