AgentSLR: Automatización de Revisiones Sistemáticas de la Literatura en Epidemiología con IA Agéntica

Resumen

Las revisiones sistemáticas de la literatura son esenciales para sintetizar la evidencia científica, pero son costosas, difíciles de escalar y requieren mucho tiempo, lo que genera cuellos de botella para las políticas basadas en la evidencia. Estudiamos si los modelos de lenguaje grandes pueden automatizar el flujo de trabajo completo de una revisión sistemática, desde la recuperación de artículos, la selección de artículos, la extracción de datos hasta la síntesis del informe. Aplicado a revisiones epidemiológicas de nueve patógenos prioritarios designados por la OMS y validado con una verdad de referencia curada por expertos, nuestro pipeline agéntico de código abierto (AgentSLR) logra un rendimiento comparable al de los investigadores humanos, mientras reduce el tiempo de revisión de aproximadamente 7 semanas a 20 horas (una aceleración de 58x). Nuestra comparación de cinco modelos de vanguardia revela que el rendimiento en las revisiones sistemáticas de la literatura depende menos del tamaño del modelo o del costo de inferencia que de las capacidades distintivas de cada modelo. Mediante una validación con humanos en el circuito, identificamos modos de fallo clave. Nuestros resultados demuestran que la IA agéntica puede acelerar sustancialmente la síntesis de evidencia científica en dominios especializados.

English

Systematic literature reviews are essential for synthesizing scientific evidence but are costly, difficult to scale and time-intensive, creating bottlenecks for evidence-based policy. We study whether large language models can automate the complete systematic review workflow, from article retrieval, article screening, data extraction to report synthesis. Applied to epidemiological reviews of nine WHO-designated priority pathogens and validated against expert-curated ground truth, our open-source agentic pipeline (AgentSLR) achieves performance comparable to human researchers while reducing review time from approximately 7 weeks to 20 hours (a 58x speed-up). Our comparison of five frontier models reveals that performance on SLR is driven less by model size or inference cost than by each model's distinctive capabilities. Through human-in-the-loop validation, we identify key failure modes. Our results demonstrate that agentic AI can substantially accelerate scientific evidence synthesis in specialised domains.

AgentSLR: Automatización de Revisiones Sistemáticas de la Literatura en Epidemiología con IA Agéntica

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Resumen

Support