MedXpertQA: Het benchmarken van medische redenering en begrip op expertniveau
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
Auteurs: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
Samenvatting
We introduceren MedXpertQA, een zeer uitdagende en uitgebreide benchmark om expertniveau medische kennis en geavanceerde redenering te evalueren. MedXpertQA omvat 4.460 vragen die 17 specialismen en 11 lichaamssystemen bestrijken. Het bevat twee subsets, Text voor tekstevaluatie en MM voor multimodale evaluatie. Opmerkelijk is dat MM expertniveau examenvragen introduceert met diverse afbeeldingen en rijke klinische informatie, waaronder patiëntendossiers en onderzoeksresultaten, waardoor het zich onderscheidt van traditionele medische multimodale benchmarks met eenvoudige vraag-antwoordparen gegenereerd uit afbeeldingbijschriften. MedXpertQA past rigoureuze filtering en augmentatie toe om de ontoereikende moeilijkheid van bestaande benchmarks zoals MedQA aan te pakken, en neemt vragen van specialistenborden op om de klinische relevantie en volledigheid te verbeteren. We voeren gegevenssynthese uit om het risico van gegevenslekkage te verminderen en voeren meerdere rondes van expertbeoordelingen uit om nauwkeurigheid en betrouwbaarheid te waarborgen. We evalueren 16 toonaangevende modellen op MedXpertQA. Bovendien is geneeskunde diep verbonden met besluitvorming in de echte wereld, wat een rijke en representatieve omgeving biedt om redeneervaardigheden te beoordelen die verder gaan dan wiskunde en code. Met dit doel ontwikkelen we een redeneergericht subset om de beoordeling van o1-achtige modellen te vergemakkelijken.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.