ChatPaper.aiChatPaper

EpiQAL: Prestaties van Grote Taalmodellen Testen bij het Beantwoorden van Epidemiologische Vragen voor Verbeterde Afstemming en Redenering

EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

January 6, 2026
Auteurs: Mingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin
cs.AI

Samenvatting

Betrouwbare epidemiologische redenering vereist het synthetiseren van onderzoeksbewijs om de ziektelast, transmissiedynamiek en interventie-effecten op populatieniveau af te leiden. Bestaande benchmarks voor medische vraagbeantwoording leggen vooral de nadruk op klinische kennis of redenering op patiëntniveau, maar weinige evalueren systematisch evidence-gesteunde epidemiologische inferentie. Wij presenteren EpiQAL, de eerste diagnostische benchmark voor epidemiologische vraagbeantwoarding voor diverse ziekten, bestaande uit drie subsets opgebouwd uit open-access literatuur. De subsets evalueren respectievelijk tekst-gesteunde feitelijke herinnering, meerstapsinferentie die documentbewijs koppelt aan epidemiologische principes, en conclusiereconstructie waarbij de Discussie-sectie is weggelaten. De constructie combineert expert-ontworpen taxonomierichtlijnen, multi-model verificatie en retrieval-gebaseerde moeilijkheidscontrole. Experimenten met tien open modellen tonen aan dat huidige LLM's beperkte prestaties vertonen op epidemiologische redenering, waarbij meerstapsinferentie de grootste uitdaging vormt. Modelrangschikkingen verschuiven tussen subsets, en schaal alleen voorspelt geen succes. Chain-of-Thought prompting heeft voordeel voor meerstapsinferentie maar levert wisselende resultaten elders op. EpiQAL biedt fijnmazige diagnostische signalen voor evidence-onderbouwing, inferentieel redeneren en conclusiereconstructie.
English
Reliable epidemiological reasoning requires synthesizing study evidence to infer disease burden, transmission dynamics, and intervention effects at the population level. Existing medical question answering benchmarks primarily emphasize clinical knowledge or patient-level reasoning, yet few systematically evaluate evidence-grounded epidemiological inference. We present EpiQAL, the first diagnostic benchmark for epidemiological question answering across diverse diseases, comprising three subsets built from open-access literature. The subsets respectively evaluate text-grounded factual recall, multi-step inference linking document evidence with epidemiological principles, and conclusion reconstruction with the Discussion section withheld. Construction combines expert-designed taxonomy guidance, multi-model verification, and retrieval-based difficulty control. Experiments on ten open models reveal that current LLMs show limited performance on epidemiological reasoning, with multi-step inference posing the greatest challenge. Model rankings shift across subsets, and scale alone does not predict success. Chain-of-Thought prompting benefits multi-step inference but yields mixed results elsewhere. EpiQAL provides fine-grained diagnostic signals for evidence grounding, inferential reasoning, and conclusion reconstruction.
PDF51January 9, 2026