AgentSLR: Automatizando Revisões Sistemáticas da Literatura em Epidemiologia com IA Agênte
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI
March 20, 2026
Autores: Shreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi
cs.AI
Resumo
As revisões sistemáticas da literatura são essenciais para sintetizar evidências científicas, mas são dispendiosas, difíceis de dimensionar e demoradas, criando estrangulamentos para políticas baseadas em evidências. Investigamos se os grandes modelos de linguagem podem automatizar o fluxo de trabalho completo de revisão sistemática, desde a recuperação de artigos, triagem de artigos, extração de dados até à síntese do relatório. Aplicado a revisões epidemiológicas de nove patógenos prioritários designados pela OMS e validado com base em dados de referência curados por especialistas, o nosso *pipeline* agentivo de código aberto (AgentSLR) atua com um desempenho comparável ao de investigadores humanos, reduzindo o tempo de revisão de aproximadamente 7 semanas para 20 horas (uma aceleração de 58 vezes). A nossa comparação de cinco modelos de ponta revela que o desempenho em Revisões Sistemáticas da Literatura é menos influenciado pelo tamanho do modelo ou custo de inferência do que pelas capacidades distintivas de cada modelo. Através de uma validação com intervenção humana (*human-in-the-loop*), identificámos os principais modos de falha. Os nossos resultados demonstram que a IA agentiva pode acelerar substancialmente a síntese de evidências científicas em domínios especializados.
English
Systematic literature reviews are essential for synthesizing scientific evidence but are costly, difficult to scale and time-intensive, creating bottlenecks for evidence-based policy. We study whether large language models can automate the complete systematic review workflow, from article retrieval, article screening, data extraction to report synthesis. Applied to epidemiological reviews of nine WHO-designated priority pathogens and validated against expert-curated ground truth, our open-source agentic pipeline (AgentSLR) achieves performance comparable to human researchers while reducing review time from approximately 7 weeks to 20 hours (a 58x speed-up). Our comparison of five frontier models reveals that performance on SLR is driven less by model size or inference cost than by each model's distinctive capabilities. Through human-in-the-loop validation, we identify key failure modes. Our results demonstrate that agentic AI can substantially accelerate scientific evidence synthesis in specialised domains.