EpiQAL: 疫学的質問応答における大規模言語モデルのベンチマーク - 整合性と推論能力の強化に向けて
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning
January 6, 2026
著者: Mingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin
cs.AI
要旨
信頼性の高い疫学的推論には、集団レベルでの疾病負荷、伝播動態、介入効果を推測するために、研究エビデンスを統合する能力が求められる。既存の医療質問応答ベンチマークは主に臨床知識や患者単位の推論を重視しているが、エビデンスに基づく疫学的推論を体系的に評価するものはほとんどない。本研究では、多様な疾病を対象とした疫学的質問応答のための初の診断的ベンチマークであるEpiQALを提案する。これはオープンアクセス文献から構築された3つのサブセットから構成され、それぞれ、テキストに基づく事実の想起、文献エビデンスと疫学原理を結びつける多段階推論、およびDiscussionセクションを隠した状態での結論再構築を評価する。構築には、専門家が設計した分類体系のガイダンス、複数モデルによる検証、および検索ベースの難易度調整を組み合わせている。10のオープンモデルを用いた実験により、現在の大規模言語モデルは疫学的推論において限定的な性能しか示さず、多段階推論が最大の課題であることが明らかになった。モデルの順位はサブセット間で変動し、規模だけでは成功を予測できない。連鎖的思考(Chain-of-Thought)プロンプトは多段階推論に有効だが、その他の領域では結果が一貫しなかった。EpiQALは、エビデンスの基盤付け、推論的思考、結論の再構築に関する、きめ細かい診断信号を提供する。
English
Reliable epidemiological reasoning requires synthesizing study evidence to infer disease burden, transmission dynamics, and intervention effects at the population level. Existing medical question answering benchmarks primarily emphasize clinical knowledge or patient-level reasoning, yet few systematically evaluate evidence-grounded epidemiological inference. We present EpiQAL, the first diagnostic benchmark for epidemiological question answering across diverse diseases, comprising three subsets built from open-access literature. The subsets respectively evaluate text-grounded factual recall, multi-step inference linking document evidence with epidemiological principles, and conclusion reconstruction with the Discussion section withheld. Construction combines expert-designed taxonomy guidance, multi-model verification, and retrieval-based difficulty control. Experiments on ten open models reveal that current LLMs show limited performance on epidemiological reasoning, with multi-step inference posing the greatest challenge. Model rankings shift across subsets, and scale alone does not predict success. Chain-of-Thought prompting benefits multi-step inference but yields mixed results elsewhere. EpiQAL provides fine-grained diagnostic signals for evidence grounding, inferential reasoning, and conclusion reconstruction.