ChatPaper.aiChatPaper

À quelle distance sommes-nous de véritables agents de recherche approfondie réellement utiles ?

How Far Are We from Genuinely Useful Deep Research Agents?

December 1, 2025
papers.authors: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI

papers.abstract

Les agents de recherche approfondie (Deep Research Agents - DRA) visent à produire automatiquement des rapports de niveau analyste grâce à une itération de recherche et de synthèse d'informations. Cependant, la plupart des DRA existants ont été validés sur des benchmarks de question-réponse, tandis que la recherche sur la génération de rapports complets reste négligée. Pire, les benchmarks actuels pour la synthèse de rapports souffrent d'une complexité des tâches et de métriques subjectives, ce qui ne reflète pas les demandes des utilisateurs et limite l'utilité pratique des rapports générés. Pour combler ces lacunes, nous présentons FINDER (Fine-grained DEepResearch bench), un benchmark amélioré composé de 100 tâches de recherche organisées par des humains, avec 419 éléments de checklist structurés qui standardisent la structure du rapport, la profondeur analytique et l'ancrage factuel. Sur la base d'environ 1 000 rapports produits par des DRA grand public, nous proposons en outre DEFT (Deep rEsearch Failure Taxonomy), la première taxonomie des échecs pour les agents de recherche approfondie. DEFT contient 14 modes d'échec granulaires couvrant le raisonnement, la recherche et la génération, et est construit sur la théorie ancrée avec une co-annotation humain-LLM et une validation de la fiabilité inter-annotateurs. Nos résultats expérimentaux révèlent que les DRA actuels éprouvent des difficultés non pas avec la compréhension des tâches, mais avec l'intégration des preuves, leur vérification et la planification résiliente au raisonnement.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.
PDF441December 3, 2025