MedXpertQA: 専門家レベルの医学的推論と理解のベンチマーク化
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
January 30, 2025
著者: Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
cs.AI
要旨
MedXpertQAは、専門家レベルの医学知識と高度な推論を評価するための非常に難しい包括的なベンチマークを紹介します。MedXpertQAには、17の専門分野と11の身体系を網羅する4,460の質問が含まれています。これには、テキスト評価用のTextと、マルチモーダル評価用のMMの2つのサブセットが含まれています。特筆すべきは、MMが多様な画像や患者記録、検査結果などの豊富な臨床情報を含む専門家レベルの試験問題を導入しており、画像キャプションから生成される単純なQAペアからなる従来の医療マルチモーダルベンチマークとは異なります。MedXpertQAは、MedQAのような既存のベンチマークの十分な難易度の不足を解消するために厳格なフィルタリングと拡張を適用し、臨床的な関連性と包括性を向上させるために専門委員会の質問を取り入れています。データ漏洩リスクを軽減するためにデータ合成を行い、正確性と信頼性を確保するために複数の専門家によるレビューを複数回実施します。MedXpertQAで16の主要モデルを評価します。さらに、医学は数学やコードを超えた推論能力の評価のための豊かで代表的な環境を提供する実世界の意思決定と深く関連しています。このため、o1のようなモデルの評価を容易にするために、推論志向のサブセットを開発しています。
English
We introduce MedXpertQA, a highly challenging and comprehensive benchmark to
evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA
includes 4,460 questions spanning 17 specialties and 11 body systems. It
includes two subsets, Text for text evaluation and MM for multimodal
evaluation. Notably, MM introduces expert-level exam questions with diverse
images and rich clinical information, including patient records and examination
results, setting it apart from traditional medical multimodal benchmarks with
simple QA pairs generated from image captions. MedXpertQA applies rigorous
filtering and augmentation to address the insufficient difficulty of existing
benchmarks like MedQA, and incorporates specialty board questions to improve
clinical relevance and comprehensiveness. We perform data synthesis to mitigate
data leakage risk and conduct multiple rounds of expert reviews to ensure
accuracy and reliability. We evaluate 16 leading models on MedXpertQA.
Moreover, medicine is deeply connected to real-world decision-making, providing
a rich and representative setting for assessing reasoning abilities beyond
mathematics and code. To this end, we develop a reasoning-oriented subset to
facilitate the assessment of o1-like models.Summary
AI-Generated Summary