AgentSLR: Automatisering van Systematische Literatuuronderzoeken in Epidemiologie met Agent-gebaseerde AI

Samenvatting

Systematische literatuurreviews zijn essentieel voor het samenbrengen van wetenschappelijk bewijs, maar zijn kostbaar, moeilijk op te schalen en tijdrovend, wat knelpunten veroorzaakt voor evidence-based beleid. Wij onderzoeken of grote taalmodelen de volledige workflow van een systematische review kunnen automatiseren, van artikelretrieval en screeningsfase tot gegevensextractie en rapportsynthese. Toegepast op epidemiologische reviews van negen door de WHO aangemerkte prioritaire pathogenen en gevalideerd tegen door experts samengestelde referentiedata, behaalt onze open-source agent-gebaseerde pijplijn (AgentSLR) een prestatieniveau vergelijkbaar met dat van menselijke onderzoekers, terwijl de reviewtijd wordt teruggebracht van ongeveer 7 weken naar 20 uur (een 58-voudige versnelling). Onze vergelijking van vijf grensverleggende modellen toont aan dat de prestaties bij systematische reviews minder worden bepaald door modelgrootte of inferentiekosten dan door de onderscheidende capaciteiten van elk model. Via validatie met een mens-in-de-lus identificeren we belangrijke faalmodi. Onze resultaten tonen aan dat agent-gebaseerde kunstmatige intelligentie de synthese van wetenschappelijk bewijs in gespecialiseerde domeinen aanzienlijk kan versnellen.

English

Systematic literature reviews are essential for synthesizing scientific evidence but are costly, difficult to scale and time-intensive, creating bottlenecks for evidence-based policy. We study whether large language models can automate the complete systematic review workflow, from article retrieval, article screening, data extraction to report synthesis. Applied to epidemiological reviews of nine WHO-designated priority pathogens and validated against expert-curated ground truth, our open-source agentic pipeline (AgentSLR) achieves performance comparable to human researchers while reducing review time from approximately 7 weeks to 20 hours (a 58x speed-up). Our comparison of five frontier models reveals that performance on SLR is driven less by model size or inference cost than by each model's distinctive capabilities. Through human-in-the-loop validation, we identify key failure modes. Our results demonstrate that agentic AI can substantially accelerate scientific evidence synthesis in specialised domains.

AgentSLR: Automatisering van Systematische Literatuuronderzoeken in Epidemiologie met Agent-gebaseerde AI

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Samenvatting

Support