AgentSLR: Автоматизация систематических обзоров литературы в эпидемиологии с помощью агентного ИИ

Аннотация

Систематические обзоры литературы играют ключевую роль в синтезе научных данных, однако они требуют значительных затрат, сложно масштабируются и отнимают много времени, создавая узкие места для формирования политики, основанной на доказательствах. Мы исследуем, способны ли большие языковые модели автоматизировать полный рабочий процесс систематического обзора — от поиска статей, их отбора и извлечения данных до синтеза отчета. Примененная к эпидемиологическим обзорам девяти приоритетных патогенов, обозначенных ВОЗ, и проверенная по экспертным эталонным данным, наша агентская система с открытым исходным кодом (AgentSLR) демонстрирует результаты, сопоставимые с результатами работы исследователей-людей, при этом сокращая время проведения обзора примерно с 7 недель до 20 часов (ускорение в 58 раз). Наше сравнение пяти передовых моделей показывает, что эффективность в задачах систематического обзора в меньшей степени зависит от размера модели или стоимости вывода, чем от ее уникальных возможностей. С помощью валидации с участием человека мы выявляем основные типы ошибок. Наши результаты демонстрируют, что агентский искусственный интеллект может существенно ускорить синтез научных доказательств в узкоспециализированных областях.

English

Systematic literature reviews are essential for synthesizing scientific evidence but are costly, difficult to scale and time-intensive, creating bottlenecks for evidence-based policy. We study whether large language models can automate the complete systematic review workflow, from article retrieval, article screening, data extraction to report synthesis. Applied to epidemiological reviews of nine WHO-designated priority pathogens and validated against expert-curated ground truth, our open-source agentic pipeline (AgentSLR) achieves performance comparable to human researchers while reducing review time from approximately 7 weeks to 20 hours (a 58x speed-up). Our comparison of five frontier models reveals that performance on SLR is driven less by model size or inference cost than by each model's distinctive capabilities. Through human-in-the-loop validation, we identify key failure modes. Our results demonstrate that agentic AI can substantially accelerate scientific evidence synthesis in specialised domains.

AgentSLR: Автоматизация систематических обзоров литературы в эпидемиологии с помощью агентного ИИ

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Аннотация

Support