MedXpertQA: Avaliando o Raciocínio e Compreensão Médica em Nível de Especialista
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
Autores: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
Resumo
Apresentamos o MedXpertQA, um benchmark altamente desafiador e abrangente para avaliar conhecimento médico de nível especializado e raciocínio avançado. O MedXpertQA inclui 4.460 perguntas abrangendo 17 especialidades e 11 sistemas corporais. Ele contém dois subconjuntos, Texto para avaliação de texto e MM para avaliação multimodal. Notavelmente, MM introduz perguntas de exame de nível especializado com diversas imagens e informações clínicas detalhadas, incluindo registros de pacientes e resultados de exames, diferenciando-se de benchmarks médicos multimodais tradicionais com pares de perguntas e respostas simples gerados a partir de legendas de imagens. O MedXpertQA aplica filtragem rigorosa e aumento para lidar com a dificuldade insuficiente de benchmarks existentes como o MedQA, e incorpora perguntas de conselhos especializados para melhorar a relevância clínica e abrangência. Realizamos síntese de dados para mitigar o risco de vazamento de dados e conduzimos múltiplas rodadas de revisões por especialistas para garantir precisão e confiabilidade. Avaliamos 16 modelos líderes no MedXpertQA. Além disso, a medicina está profundamente ligada à tomada de decisões do mundo real, fornecendo um cenário rico e representativo para avaliar habilidades de raciocínio além de matemática e código. Para isso, desenvolvemos um subconjunto orientado para raciocínio para facilitar a avaliação de modelos semelhantes ao o1.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary