ChatPaper.aiChatPaper

심층 연구 에이전트를 위한 다차원 평가 기반의 엄격한 벤치마크: 답변에서 보고서까지

A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports

October 2, 2025
저자: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI

초록

인공지능은 폐쇄형 언어 모델에서 외부 지각과 정보 통합이 가능한 상호 연결된 에이전트 시스템으로의 패러다임 전환을 겪고 있습니다. 대표적인 구현체로서, 딥 리서치 에이전트(DRAs)는 작업 분해, 교차 소스 검색, 다단계 추론, 구조화된 출력 등의 능력을 체계적으로 보여주며, 복잡하고 개방형 작업에서의 성능을 현저히 향상시킵니다. 그러나 기존 벤치마크는 평가 차원, 응답 형식, 채점 메커니즘 등에서 부족함이 있어, 이러한 시스템을 효과적으로 평가하는 데 한계가 있습니다. 본 논문은 DRAs와 보고서 스타일 응답에 맞춰진 엄격한 벤치마크와 다차원 평가 프레임워크를 소개합니다. 이 벤치마크는 10개의 광범위한 주제 영역에 걸쳐 전문가가 선별한 214개의 도전적인 질문으로 구성되며, 각 질문은 복합 평가를 지원하기 위해 수동으로 구성된 참조 번들과 함께 제공됩니다. 이 프레임워크는 DRAs가 생성한 장문 보고서에 대한 포괄적인 평가를 가능하게 하며, 의미적 품질, 주제 집중도, 검색 신뢰도를 통합한 채점 메트릭을 포함합니다. 광범위한 실험을 통해 주류 DRAs가 웹 검색 도구를 보강한 추론 모델보다 우수한 성능을 보임을 확인했지만, 여전히 개선의 여지가 상당함을 밝혀냈습니다. 본 연구는 DRA 시스템의 능력 평가, 아키텍처 개선, 패러다임 발전을 위한 견고한 기반을 제공합니다.
English
Artificial intelligence is undergoing the paradigm shift from closed language models to interconnected agent systems capable of external perception and information integration. As a representative embodiment, Deep Research Agents (DRAs) systematically exhibit the capabilities for task decomposition, cross-source retrieval, multi-stage reasoning, and structured output, which markedly enhance performance on complex and open-ended tasks. However, existing benchmarks remain deficient in evaluation dimensions, response formatting, and scoring mechanisms, limiting their capacity to assess such systems effectively. This paper introduces a rigorous benchmark and a multidimensional evaluation framework tailored to DRAs and report-style responses. The benchmark comprises 214 expert-curated challenging queries distributed across 10 broad thematic domains, each accompanied by manually constructed reference bundles to support composite evaluation. The framework enables comprehensive evaluation of long-form reports generated by DRAs, incorporating integrated scoring metrics for semantic quality, topical focus, and retrieval trustworthiness. Extensive experimentation confirms the superior performance of mainstream DRAs over web-search-tool-augmented reasoning models, yet reveals considerable scope for further improvement. This study provides a robust foundation for capability assessment, architectural refinement, and paradigm advancement in DRA systems.
PDF182October 3, 2025