MedXpertQA : Évaluation du raisonnement médical de niveau expert et de la compréhension.
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
Auteurs: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
Résumé
Nous présentons MedXpertQA, un banc d'essai hautement exigeant et complet pour évaluer les connaissances médicales de niveau expert et le raisonnement avancé. MedXpertQA comprend 4 460 questions couvrant 17 spécialités et 11 systèmes corporels. Il comprend deux sous-ensembles, Texte pour l'évaluation de texte et MM pour l'évaluation multimodale. Notamment, MM introduit des questions d'examen de niveau expert avec des images diverses et des informations cliniques riches, y compris des dossiers de patients et des résultats d'examens, le distinguant des bancs d'essai médicaux multimodaux traditionnels avec des paires de questions-réponses simples générées à partir de légendes d'images. MedXpertQA applique un filtrage rigoureux et une augmentation pour traiter l'insuffisance de difficulté des bancs d'essai existants tels que MedQA, et intègre des questions de conseils spécialisés pour améliorer la pertinence clinique et l'exhaustivité. Nous effectuons une synthèse des données pour atténuer le risque de fuite de données et menons plusieurs tours d'examens par des experts pour garantir l'exactitude et la fiabilité. Nous évaluons 16 modèles de premier plan sur MedXpertQA. De plus, la médecine est profondément liée à la prise de décisions du monde réel, offrant un cadre riche et représentatif pour évaluer les capacités de raisonnement au-delà des mathématiques et du code. À cette fin, nous développons un sous-ensemble orienté vers le raisonnement pour faciliter l'évaluation des modèles de type o1.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary