EpiQAL : Évaluation des grands modèles de langage en réponse aux questions épidémiologiques pour une meilleure alignement et raisonnement
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning
January 6, 2026
papers.authors: Mingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin
cs.AI
papers.abstract
Un raisonnement épidémiologique fiable nécessite de synthétiser les preuves issues des études pour déduire la charge de morbidité, la dynamique de transmission et les effets des interventions au niveau populationnel. Les référentiels existants de question-réponse médicale mettent principalement l'accent sur les connaissances cliniques ou le raisonnement au niveau du patient, mais peu évaluent systématiquement l'inférence épidémiologique fondée sur des preuves. Nous présentons EpiQAL, le premier référentiel diagnostique pour la question-réponse en épidémiologie couvrant diverses maladies, comprenant trois sous-ensembles construits à partir de la littérature en libre accès. Les sous-ensembles évaluent respectivement la rappel factuel ancré dans le texte, l'inférence multi-étapes reliant les preuves documentaires aux principes épidémiologiques, et la reconstruction de conclusions avec la section Discussion masquée. La construction combine un guide taxonomique conçu par des experts, une vérification multi-modèle et un contrôle de difficulté basé sur la récupération d'information. Des expériences sur dix modèles ouverts révèlent que les LLM actuels présentent des performances limitées en raisonnement épidémiologique, l'inférence multi-étapes constituant le défi le plus important. Le classement des modèles varie selon les sous-ensembles, et l'échelle seule ne prédit pas le succès. L'incitation par chaîne de pensée (Chain-of-Thought) bénéficie à l'inférence multi-étapes mais donne des résultats mitigés ailleurs. EpiQAL fournit des signaux diagnostiques granulaires pour l'ancrage probant, le raisonnement inférentiel et la reconstruction de conclusions.
English
Reliable epidemiological reasoning requires synthesizing study evidence to infer disease burden, transmission dynamics, and intervention effects at the population level. Existing medical question answering benchmarks primarily emphasize clinical knowledge or patient-level reasoning, yet few systematically evaluate evidence-grounded epidemiological inference. We present EpiQAL, the first diagnostic benchmark for epidemiological question answering across diverse diseases, comprising three subsets built from open-access literature. The subsets respectively evaluate text-grounded factual recall, multi-step inference linking document evidence with epidemiological principles, and conclusion reconstruction with the Discussion section withheld. Construction combines expert-designed taxonomy guidance, multi-model verification, and retrieval-based difficulty control. Experiments on ten open models reveal that current LLMs show limited performance on epidemiological reasoning, with multi-step inference posing the greatest challenge. Model rankings shift across subsets, and scale alone does not predict success. Chain-of-Thought prompting benefits multi-step inference but yields mixed results elsewhere. EpiQAL provides fine-grained diagnostic signals for evidence grounding, inferential reasoning, and conclusion reconstruction.