ChatPaper.aiChatPaper

LiveMedBench: Um Benchmark Médico Livre de Contaminação para LLMs com Avaliação Automatizada por Rubrica

LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

February 10, 2026
Autores: Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
cs.AI

Resumo

A implantação de Modelos de Língua Grande (LLMs) em contextos clínicos de alto risco exige uma avaliação rigorosa e confiável. No entanto, os benchmarks médicos existentes permanecem estáticos, sofrendo de duas limitações críticas: (1) contaminação de dados, onde conjuntos de teste vazam inadvertidamente para os corpora de treinamento, levando a estimativas de desempenho inflacionadas; e (2) desalinhamento temporal, falhando em capturar a rápida evolução do conhecimento médico. Além disso, as métricas de avaliação atuais para o raciocínio clínico de resposta aberta frequentemente dependem de sobreposição lexical superficial (por exemplo, ROUGE) ou da pontuação subjetiva por um LLM como Juiz, ambas inadequadas para verificar a correção clínica. Para preencher essas lacunas, apresentamos o LiveMedBench, um benchmark continuamente atualizado, livre de contaminação e baseado em rubricas, que colhe semanalmente casos clínicos do mundo real de comunidades médicas online, garantindo uma separação temporal rigorosa dos dados de treinamento do modelo. Propomos uma Estrutura de Curadoria Clínica Multiagente que filtra o ruído dos dados brutos e valida a integridade clínica com base em princípios médicos baseados em evidências. Para avaliação, desenvolvemos uma Estrutura de Avaliação Automatizada Baseada em Rubricas que decompõe as respostas médicas em critérios granulares e específicos de cada caso, alcançando um alinhamento substancialmente maior com médicos especialistas do que o método de LLM como Juiz. Até o momento, o LiveMedBench compreende 2.756 casos do mundo real abrangendo 38 especialidades médicas e vários idiomas, emparelhados com 16.702 critérios de avaliação únicos. A avaliação extensiva de 38 LLMs revela que mesmo o modelo de melhor desempenho atinge apenas 39,2%, e 84% dos modelos exibem degradação de desempenho em casos pós-corte, confirmando os riscos generalizados de contaminação de dados. A análise de erros identifica ainda a aplicação contextual - e não o conhecimento factual - como o principal gargalo, com 35-48% das falhas decorrendo da incapacidade de adaptar o conhecimento médico às restrições específicas do paciente.
English
The deployment of Large Language Models (LLMs) in high-stakes clinical settings demands rigorous and reliable evaluation. However, existing medical benchmarks remain static, suffering from two critical limitations: (1) data contamination, where test sets inadvertently leak into training corpora, leading to inflated performance estimates; and (2) temporal misalignment, failing to capture the rapid evolution of medical knowledge. Furthermore, current evaluation metrics for open-ended clinical reasoning often rely on either shallow lexical overlap (e.g., ROUGE) or subjective LLM-as-a-Judge scoring, both inadequate for verifying clinical correctness. To bridge these gaps, we introduce LiveMedBench, a continuously updated, contamination-free, and rubric-based benchmark that weekly harvests real-world clinical cases from online medical communities, ensuring strict temporal separation from model training data. We propose a Multi-Agent Clinical Curation Framework that filters raw data noise and validates clinical integrity against evidence-based medical principles. For evaluation, we develop an Automated Rubric-based Evaluation Framework that decomposes physician responses into granular, case-specific criteria, achieving substantially stronger alignment with expert physicians than LLM-as-a-Judge. To date, LiveMedBench comprises 2,756 real-world cases spanning 38 medical specialties and multiple languages, paired with 16,702 unique evaluation criteria. Extensive evaluation of 38 LLMs reveals that even the best-performing model achieves only 39.2%, and 84% of models exhibit performance degradation on post-cutoff cases, confirming pervasive data contamination risks. Error analysis further identifies contextual application-not factual knowledge-as the dominant bottleneck, with 35-48% of failures stemming from the inability to tailor medical knowledge to patient-specific constraints.
PDF132March 10, 2026