ChatPaper.aiChatPaper

MedXpertQA: Bewertung von Expertenqualität in medizinischem Denken und Verstehen

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

January 30, 2025
Autoren: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI

Zusammenfassung

Wir stellen MedXpertQA vor, einen äußerst anspruchsvollen und umfassenden Benchmark zur Bewertung von medizinischem Expertenwissen und fortgeschrittenem Denken. MedXpertQA umfasst 4.460 Fragen aus 17 Fachgebieten und 11 Körpersystemen. Es besteht aus zwei Teilmengen, Text zur Textbewertung und MM zur multimodalen Bewertung. MM führt insbesondere Expertenprüfungsfragen mit vielfältigen Bildern und umfangreichen klinischen Informationen ein, einschließlich Patientenakten und Untersuchungsergebnissen, was es von traditionellen medizinischen multimodalen Benchmarks mit einfachen QA-Paaren, die aus Bildunterschriften generiert wurden, abhebt. MedXpertQA wendet strenge Filterung und Erweiterung an, um die unzureichende Schwierigkeit bestehender Benchmarks wie MedQA zu bewältigen, und integriert Facharztfragen, um die klinische Relevanz und Umfassendheit zu verbessern. Wir führen eine Datensynthese durch, um das Risiko von Datenlecks zu minimieren, und führen mehrere Runden von Expertenbewertungen durch, um Genauigkeit und Zuverlässigkeit sicherzustellen. Wir evaluieren 16 führende Modelle auf MedXpertQA. Darüber hinaus ist die Medizin tief mit realen Entscheidungsprozessen verbunden, was einen reichen und repräsentativen Rahmen für die Bewertung von Denkfähigkeiten jenseits von Mathematik und Code bietet. Zu diesem Zweck entwickeln wir eine auf das Denken ausgerichtete Teilmengen, um die Bewertung von Modellen ähnlich wie o1 zu erleichtern.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA includes 4,460 questions spanning 17 specialties and 11 body systems. It includes two subsets, Text for text evaluation and MM for multimodal evaluation. Notably, MM introduces expert-level exam questions with diverse images and rich clinical information, including patient records and examination results, setting it apart from traditional medical multimodal benchmarks with simple QA pairs generated from image captions. MedXpertQA applies rigorous filtering and augmentation to address the insufficient difficulty of existing benchmarks like MedQA, and incorporates specialty board questions to improve clinical relevance and comprehensiveness. We perform data synthesis to mitigate data leakage risk and conduct multiple rounds of expert reviews to ensure accuracy and reliability. We evaluate 16 leading models on MedXpertQA. Moreover, medicine is deeply connected to real-world decision-making, providing a rich and representative setting for assessing reasoning abilities beyond mathematics and code. To this end, we develop a reasoning-oriented subset to facilitate the assessment of o1-like models.

Summary

AI-Generated Summary

PDF222January 31, 2025