ChatPaper.aiChatPaper

LiveMedBench: Незагрязненный медицинский бенчмарк для больших языковых моделей с автоматической оценкой по рубрикам

LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

February 10, 2026
Авторы: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI

Аннотация

Развертывание больших языковых моделей (LLM) в клинической практике с высокими рисками требует строгой и надежной оценки. Однако существующие медицинские бенчмарки остаются статичными и страдают от двух ключевых ограничений: (1) *загрязнения данных*, когда тестовые наборы непреднамеренно попадают в обучающие корпуса, что приводит к завышенным оценкам производительности; и (2) *временного несоответствия*, не позволяющего отразить быстрое развитие медицинских знаний. Кроме того, текущие метрики оценки для открытого клинического мышления часто опираются либо на поверхностное лексическое совпадение (например, ROUGE), либо на субъективное оценивание с помощью LLM-as-a-Judge, что неприемлемо для проверки клинической корректности. Для преодоления этих пробелов мы представляем LiveMedBench — постоянно обновляемый, свободный от загрязнения и основанный на рубриках бенчмарк, который еженедельно собирает реальные клинические случаи из онлайн-медицинских сообществ, обеспечивая строгое временное разделение с данными для обучения моделей. Мы предлагаем *Мульти-агентную систему клинической курации*, которая фильтрует шум в исходных данных и проверяет клиническую достоверность на основе принципов доказательной медицины. Для оценки мы разработали *Автоматизированную систему оценки на основе рубрик*, которая декомпозирует ответы врачей на детальные, специфичные для случая критерии, демонстрируя значительно более сильное соответствие с экспертными оценками врачей по сравнению с методом LLM-as-a-Judge. На сегодняшний день LiveMedBench включает 2 756 реальных случаев, охватывающих 38 медицинских специальностей и несколько языков, в паре с 16 702 уникальными оценочными критериями. Массовая оценка 38 LLM показала, что даже лучшая модель достигает показателя лишь в 39,2%, а 84% моделей демонстрируют снижение производительности на случаях после установленной точки отсечения, что подтверждает повсеместные риски загрязнения данных. Анализ ошибок дополнительно выявляет, что *контекстуальное применение* знаний, а не их фактологическая составляющая, является основным узким местом: от 35% до 48% ошибок происходят из-за неспособности адаптировать медицинские знания к специфическим ограничениям пациента.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
PDF91February 13, 2026