Насколько мы далеки от создания действительно полезных агентов для глубоких исследований?
How Far Are We from Genuinely Useful Deep Research Agents?
December 1, 2025
Авторы: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Аннотация
Агенты углубленного исследования (Deep Research Agents, DRA) ставят целью автоматическое создание аналитических отчетов экспертного уровня посредством итеративного поиска и синтеза информации. Однако большинство существующих DRA были проверены на бенчмарках для вопросно-ответных систем, в то время как исследования по генерации комплексных отчетов остаются недостаточно изученными. Что хуже, современные бенчмарки для синтеза отчетов страдают от сложности задач и субъективности метрик — это не отражает потребности пользователей и ограничивает практическую полезность генерируемых отчетов. Для устранения этих пробелов мы представляем улучшенный бенчмарк Fine-grained DEepResearch bench (FINDER), состоящий из 100 тщательно отобранных экспертами исследовательских задач с 419 структурированными пунктами контрольного списка, которые стандартизируют структуру отчета, аналитическую глубину и фактическую обоснованность. На основе примерно 1000 отчетов, созданных основными DRA, мы дополнительно предлагаем Deep rEsearch Failure Taxonomy (DEFT) — первую таксономию ошибок для агентов углубленного исследования. DEFT содержит 14 детализированных типов сбоев в области рассуждений, поиска и генерации и построена на основе обоснованной теории с совместной аннотацией человек-ИЯ и проверкой надежности между аннотаторами. Наши экспериментальные результаты показывают, что современные DRA испытывают трудности не с пониманием задачи, а с интеграцией доказательств, их проверкой и планированием, устойчивым к рассуждениям.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.