MedXpertQA: Valutazione delle capacità di ragionamento e comprensione medica di livello esperto
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
Autori: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
Abstract
Presentiamo MedXpertQA, una sfida altamente impegnativa e completa per valutare conoscenze mediche di livello esperto e ragionamento avanzato. MedXpertQA include 4.460 domande che coprono 17 specializzazioni e 11 sistemi corporei. Comprende due sottoinsiemi, Testo per valutazione testuale e MM per valutazione multimodale. In particolare, MM introduce domande d'esame di livello esperto con immagini diverse e ricche informazioni cliniche, incluse cartelle cliniche e risultati di esami, distinguendosi dai tradizionali benchmark medici multimodali con semplici coppie di domande e risposte generate da didascalie di immagini. MedXpertQA applica un filtraggio rigoroso e un'augmentazione per affrontare la scarsa difficoltà dei benchmark esistenti come MedQA, e incorpora domande di esami specialistici per migliorare la rilevanza clinica e la completezza. Effettuiamo una sintesi dei dati per mitigare il rischio di fuga di dati e conduciamo diverse fasi di revisioni da parte di esperti per garantire accuratezza e affidabilità. Valutiamo 16 modelli leader su MedXpertQA. Inoltre, la medicina è profondamente legata alla presa di decisioni nel mondo reale, fornendo un contesto ricco e rappresentativo per valutare abilità di ragionamento al di là della matematica e del codice. A tal fine, sviluppiamo un sottoinsieme orientato al ragionamento per agevolare la valutazione di modelli simili a o1.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary