AgentSLR: Automatisierung systematischer Literaturreviews in der Epidemiologie mit agentenbasierter KI

Zusammenfassung

Systematische Literaturübersichten sind unerlässlich, um wissenschaftliche Evidenz zu synthetisieren, aber sie sind kostspielig, schwer zu skalieren und zeitaufwändig, was Engpässe für evidenzbasierte Politik verursacht. Wir untersuchen, ob große Sprachmodelle den vollständigen Arbeitsablauf systematischer Übersichten automatisieren können – von der Artikelsuche und -sichtung über die Datenextraktion bis hin zur Synthese des Berichts. Angewendet auf epidemiologische Übersichten zu neun von der WHO priorisierten Krankheitserregern und validiert anhand von Experten-kuratierten Referenzdaten erreicht unsere Open-Source-Agenten-Pipeline (AgentSLR) eine mit menschlichen Forschern vergleichbare Leistung, während die Bearbeitungszeit von etwa 7 Wochen auf 20 Stunden verkürzt wird (eine 58-fache Beschleunigung). Unser Vergleich von fünf führenden Modellen zeigt, dass die Leistung bei systematischen Übersichten weniger von der Modellgröße oder den Inferenzkosten abhängt als von den spezifischen Fähigkeiten jedes Modells. Durch Validierung mit menschlicher Beteiligung identifizieren wir wesentliche Fehlermodi. Unsere Ergebnisse demonstrieren, dass agentenbasierte KI die Synthese wissenschaftlicher Evidenz in spezialisierten Domänen erheblich beschleunigen kann.

English

Systematic literature reviews are essential for synthesizing scientific evidence but are costly, difficult to scale and time-intensive, creating bottlenecks for evidence-based policy. We study whether large language models can automate the complete systematic review workflow, from article retrieval, article screening, data extraction to report synthesis. Applied to epidemiological reviews of nine WHO-designated priority pathogens and validated against expert-curated ground truth, our open-source agentic pipeline (AgentSLR) achieves performance comparable to human researchers while reducing review time from approximately 7 weeks to 20 hours (a 58x speed-up). Our comparison of five frontier models reveals that performance on SLR is driven less by model size or inference cost than by each model's distinctive capabilities. Through human-in-the-loop validation, we identify key failure modes. Our results demonstrate that agentic AI can substantially accelerate scientific evidence synthesis in specialised domains.

AgentSLR: Automatisierung systematischer Literaturreviews in der Epidemiologie mit agentenbasierter KI

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Zusammenfassung

Support