MedXpertQA: Оценка экспертного уровня медицинского мышления и понимания
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
Авторы: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
Аннотация
Мы представляем MedXpertQA, высоко сложный и всесторонний бенчмарк для оценки медицинских знаний на уровне эксперта и продвинутого рассуждения. MedXpertQA включает 4 460 вопросов, охватывающих 17 специальностей и 11 систем органов. Он включает два подмножества: Text для оценки текста и MM для оценки мультимодальности. Следует отметить, что MM представляет экспертные вопросы экзамена с разнообразными изображениями и обширной клинической информацией, включая медицинские записи пациентов и результаты обследований, что отличает его от традиционных медицинских мультимодальных бенчмарков с простыми вопрос-ответ, сгенерированными из подписей к изображениям. MedXpertQA применяет строгую фильтрацию и дополнение для решения проблемы недостаточной сложности существующих бенчмарков, таких как MedQA, и включает вопросы специализированных экзаменов для улучшения клинической значимости и всесторонности. Мы проводим синтез данных для снижения риска утечки данных и проводим несколько раундов экспертных рецензий для обеспечения точности и надежности. Мы оцениваем 16 ведущих моделей на MedXpertQA. Более того, медицина глубоко связана с принятием решений в реальном мире, обеспечивая богатую и репрезентативную среду для оценки способностей к рассуждению за пределами математики и кода. Для этой цели мы разрабатываем подмножество, ориентированное на рассуждения, чтобы облегчить оценку моделей, подобных o1.
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary