MedXpertQA: Evaluación comparativa del razonamiento y comprensión médica a nivel experto
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
Autores: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
Resumen
Presentamos MedXpertQA, un desafío altamente exigente y completo para evaluar el conocimiento médico de nivel experto y el razonamiento avanzado. MedXpertQA consta de 4,460 preguntas que abarcan 17 especialidades y 11 sistemas corporales. Incluye dos subconjuntos, Texto para evaluación de texto y MM para evaluación multimodal. Destacablemente, MM introduce preguntas de exámenes de nivel experto con diversas imágenes e información clínica detallada, que incluye historias clínicas y resultados de exámenes de pacientes, diferenciándose de los benchmarks médicos multimodales tradicionales con simples pares de preguntas y respuestas generadas a partir de subtítulos de imágenes. MedXpertQA aplica un filtrado riguroso y aumentos para abordar la insuficiente dificultad de benchmarks existentes como MedQA, e incorpora preguntas de exámenes especializados para mejorar la relevancia clínica y la exhaustividad. Realizamos síntesis de datos para mitigar el riesgo de fuga de datos y llevamos a cabo múltiples rondas de revisiones de expertos para garantizar precisión y confiabilidad. Evaluamos 16 modelos líderes en MedXpertQA. Además, la medicina está profundamente conectada con la toma de decisiones del mundo real, proporcionando un entorno rico y representativo para evaluar habilidades de razonamiento más allá de las matemáticas y el código. Con este fin, desarrollamos un subconjunto orientado al razonamiento para facilitar la evaluación de modelos similares a o1.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary