EpiQAL: 역학 질의응답에서 대규모 언어 모델의 정렬 및 추론 능력 향상을 위한 벤치마킹
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning
January 6, 2026
저자: Mingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin
cs.AI
초록
신뢰할 수 있는 역학적 추론은 연구 증거를 종합하여 인구 수준에서의 질병 부담, 전파 역학, 중재 효과를 추론하는 것을 요구합니다. 기존 의학 질의응답 벤치마크는 주로 임상 지식이나 환자 수준 추론을 강조하지만, 증거에 기반한 역학적 추론을 체계적으로 평가하는 사례는 드뭅니다. 본 연구에서는 다양한 질병에 걸친 역학적 질의응답을 위한 첫 번째 진단적 벤치마크인 EpiQAL을 소개합니다. 이는 공개 문헌 자료로 구축된 세 가지 하위 집합으로 구성되며, 각각 텍스트 기반 사실 회상, 문서 증거와 역학 원칙을 연결하는 다단계 추론, 그리고 논의 부분을 제외한 결론 재구성을 평가합니다. 구축 과정에는 전문가 설계 분류 체계 지침, 다중 모델 검증 및 검색 기반 난이도 조절이 결합되었습니다. 10가지 오픈 모델에 대한 실험 결과, 현재의 대규모 언어 모델들은 역학적 추론에서 제한된 성능을 보였으며, 다단계 추론이 가장 큰 도전 과제로 나타났습니다. 모델 순위는 하위 집합에 따라 변동했으며, 규모만으로는 성공을 예측할 수 없었습니다. 사고 사슬(Chain-of-Thought) 프롬프트는 다단계 추론에는 도움이 되었으나 다른 영역에서는 혼재된 결과를 보였습니다. EpiQAL은 증거 기반, 추론적 사고, 결론 재구성에 대한 세분화된 진단 신호를 제공합니다.
English
Reliable epidemiological reasoning requires synthesizing study evidence to infer disease burden, transmission dynamics, and intervention effects at the population level. Existing medical question answering benchmarks primarily emphasize clinical knowledge or patient-level reasoning, yet few systematically evaluate evidence-grounded epidemiological inference. We present EpiQAL, the first diagnostic benchmark for epidemiological question answering across diverse diseases, comprising three subsets built from open-access literature. The subsets respectively evaluate text-grounded factual recall, multi-step inference linking document evidence with epidemiological principles, and conclusion reconstruction with the Discussion section withheld. Construction combines expert-designed taxonomy guidance, multi-model verification, and retrieval-based difficulty control. Experiments on ten open models reveal that current LLMs show limited performance on epidemiological reasoning, with multi-step inference posing the greatest challenge. Model rankings shift across subsets, and scale alone does not predict success. Chain-of-Thought prompting benefits multi-step inference but yields mixed results elsewhere. EpiQAL provides fine-grained diagnostic signals for evidence grounding, inferential reasoning, and conclusion reconstruction.