ChatPaper.aiChatPaper

진정으로 유용한 딥 리서치 에이전트까지 얼마나 남았을까?

How Far Are We from Genuinely Useful Deep Research Agents?

December 1, 2025
저자: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI

초록

딥 리서치 에이전트(DRA)는 반복적인 정보 검색 및 종합을 통해 분석가 수준의 보고서를 자동으로 생성하는 것을 목표로 합니다. 그러나 기존 DRA 대부분은 질의응답 벤치마크에서 검증되었으며, 포괄적인 보고서 생성에 대한 연구는 여전히 간과되고 있습니다. 더욱이 현재 보고서 종합을 위한 벤치마크는 과제 복잡성과 주관적 평가指標로 인해 사용자 요구를 반영하지 못하고 생성된 보고서의 실용성을 제한하고 있습니다. 이러한 격차를 해결하기 위해 본 연구에서는 FINDER(Fine-grained DEepResearch bench)를 제안합니다. FINDER는 100개의 인간이 직접 선별한 연구 과제와 419개의 구조화된 체크리스트 항목으로 구성된 향상된 벤치마크로, 보고서 구조, 분석 깊이, 사실적 근거를 표준화합니다. 주류 DRA가 생성한 약 1,000건의 보고서를 바탕으로 우리는 딥 리서치 에이전트 최초의 실패 분류 체계인 DEFT(Deep rEsearch Failure Taxonomy)를 추가로 제안합니다. DEFT는 추론, 검색, 생성 영역 전반에 걸친 14개의 세분화된 실패 모드를 포함하며, 근거 이론(Grounded Theory)에 기반하여 인간-대형언어모델 공동 주석 달기 및 주석자 간 신뢰도 검증을 통해 구축되었습니다. 우리의 실험 결과는 현재 DRA가 과제 이해보다는 증거 통합, 검증, 그리고 추론에 견고한 계획 수립에 어려움을 겪고 있음을 보여줍니다.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.
PDF441December 3, 2025