ChatPaper.aiChatPaper

真に有用な深層研究エージェントまで、我々はどれほど近づいているのか?

How Far Are We from Genuinely Useful Deep Research Agents?

December 1, 2025
著者: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI

要旨

深層研究エージェント(DRA)は、反復的な情報検索と統合を通じてアナリストレベルのレポートを自動生成することを目指す。しかし、既存のDRAの大半は質問応答ベンチマークで検証されており、包括的なレポート生成に関する研究は未だ軽視されている。さらに深刻なことに、現行のレポート統合ベンチマークは課題の複雑さと主観的評価指標に悩まされており、これはユーザーニーズを反映せず、生成レポートの実用性を制限している。これらの課題を解決するため、我々はFine-grained DEepResearch bench(FINDER)を提案する。これは100件の人手で精選された研究課題と419の構造化チェックリスト項目から構成される強化ベンチマークであり、レポート構造、分析的深さ、事実に基づく根拠を標準化する。主流DRAによって生成された約1,000件のレポートに基づき、我々はさらに深層研究エージェント初の失敗分類体系であるDeep rEsearch Failure Taxonomy(DEFT)を提案する。DEFTは推論、検索、生成の3領域にわたる14の詳細な失敗モードを含み、グラウンデッドセオリーに基づき、人間と大規模言語モデルの共同注釈及び注釈者間信頼性検証を経て構築された。実験結果から、現行のDRAは課題理解ではなく、証拠の統合、検証、および推論に耐える計画立案に苦戦していることが明らかとなった。
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.
PDF441December 3, 2025