AgentSLR : Automatisation des revues systématiques de la littérature en épidémiologie grâce à l'IA agentique

Résumé

Les revues systématiques de la littérature sont essentielles pour synthétiser les preuves scientifiques, mais elles sont coûteuses, difficiles à déployer à grande échelle et longues à réaliser, créant ainsi des goulots d'étranglement pour les politiques fondées sur des données probantes. Nous étudions si les grands modèles de langage peuvent automatiser l'intégralité du processus de revue systématique, allant de la recherche d'articles, de la sélection des articles et de l'extraction des données jusqu'à la synthèse du rapport. Appliquée à des revues épidémiologiques sur neuf pathogènes prioritaires désignés par l'OMS et validée par rapport à une référence établie par des experts, notre chaîne de traitement agentielle open source (AgentSLR) obtient des performances comparables à celles de chercheurs humains, tout en réduisant la durée d'une revue d'environ 7 semaines à 20 heures (soit une accélération d'un facteur 58). Notre comparaison de cinq modèles de pointe révèle que les performances sur les revues systématiques sont moins influencées par la taille du modèle ou le coût de l'inférence que par les capacités distinctives de chaque modèle. Grâce à une validation en boucle humaine, nous identifions les principaux modes d'échec. Nos résultats démontrent que l'intelligence artificielle agentielle peut accélérer considérablement la synthèse des preuves scientifiques dans des domaines spécialisés.

English

Systematic literature reviews are essential for synthesizing scientific evidence but are costly, difficult to scale and time-intensive, creating bottlenecks for evidence-based policy. We study whether large language models can automate the complete systematic review workflow, from article retrieval, article screening, data extraction to report synthesis. Applied to epidemiological reviews of nine WHO-designated priority pathogens and validated against expert-curated ground truth, our open-source agentic pipeline (AgentSLR) achieves performance comparable to human researchers while reducing review time from approximately 7 weeks to 20 hours (a 58x speed-up). Our comparison of five frontier models reveals that performance on SLR is driven less by model size or inference cost than by each model's distinctive capabilities. Through human-in-the-loop validation, we identify key failure modes. Our results demonstrate that agentic AI can substantially accelerate scientific evidence synthesis in specialised domains.

AgentSLR : Automatisation des revues systématiques de la littérature en épidémiologie grâce à l'IA agentique

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Résumé

Support