ChatPaper.aiChatPaper

Wie weit sind wir von wirklich nützlichen Deep Research Agents entfernt?

How Far Are We from Genuinely Useful Deep Research Agents?

December 1, 2025
papers.authors: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI

papers.abstract

Deep Research Agents (DRAs) zielen darauf ab, durch iteratives Informationsretrieval und Synthese automatisch Analysten-level-Berichte zu erstellen. Die meisten existierenden DRAs wurden jedoch an Frage-Antwort-Benchmarks validiert, während die Forschung zur Generierung umfassender Berichte vernachlässigt bleibt. Noch problematischer ist, dass aktuelle Benchmarks für Berichtsynthese unter Aufgabenkomplexität und subjektiven Metriken leiden – dies spiegelt Nutzeranforderungen nicht wider und schränkt die praktische Brauchbarkeit generierter Berichte ein. Um diese Lücken zu schließen, stellen wir Fine-grained DEepResearch bench (FINDER) vor, einen erweiterten Benchmark aus 100 menschlich kuratierten Forschungsaufgaben mit 419 strukturierten Checklistenpunkten, die Berichtsstruktur, analytische Tiefe und faktische Fundierung standardisieren. Basierend auf etwa 1.000 von Mainstream-DRAs produzierten Berichten schlagen wir weiterhin Deep rEsearch Failure Taxonomy (DEFT) vor, die erste Fehlerklassifikation für Deep Research Agents. DEFT umfasst 14 feinkörnige Fehlermodi in den Bereichen Reasoning, Retrieval und Generierung und basiert auf Grounded Theory mit menschlich-LLM-co-annotierter Validierung und Inter-Annotator-Reliability-Prüfung. Unsere experimentellen Ergebnisse zeigen, dass aktuelle DRAs nicht an Aufgabenverständnis, sondern an Evidenzintegration, -verifikation und reasoning-resilienter Planung scheitern.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.
PDF441December 3, 2025