리포트를 통한 딥리서치 이해하기
Understanding DeepResearch via Reports
October 9, 2025
저자: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
초록
DeepResearch 에이전트는 정교한 추론과 다중 도구 통합을 통해 전문가 수준의 연구를 수행하는 혁신적인 AI 패러다임을 대표합니다. 그러나 이러한 시스템을 평가하는 것은 개방형 연구 시나리오와 단편적인 능력에 초점을 맞춘 기존 벤치마크로 인해 여전히 심각한 도전 과제로 남아 있습니다. 전통적인 LLM 작업과 달리, DeepResearch 시스템은 다양한 소스를 종합하고 통찰을 생성하며 일관된 연구 결과를 제시해야 하는데, 이러한 능력들은 단순한 검증을 거부합니다. 이러한 격차를 해결하기 위해, 우리는 DeepResearch 시스템을 가장 대표적인 출력물인 연구 보고서를 통해 평가하기 위한 포괄적인 프레임워크인 DeepResearch-ReportEval을 소개합니다. 우리의 접근 방식은 품질, 중복성, 사실성이라는 세 가지 차원을 체계적으로 측정하며, 혁신적인 LLM-as-a-Judge 방법론을 통해 강력한 전문가 일치도를 달성합니다. 우리는 12개의 실제 세계 카테고리에 걸쳐 100개의 선별된 쿼리로 구성된 표준 벤치마크를 제공함으로써 체계적인 능력 비교를 가능하게 합니다. 4개의 주요 상용 시스템에 대한 평가를 통해 뚜렷한 설계 철학과 성능 트레이드오프를 밝혀냈으며, 이는 DeepResearch가 정보 보조 도구에서 지능형 연구 파트너로 진화함에 있어 기초적인 통찰을 확립합니다. 소스 코드와 데이터는 https://github.com/HKUDS/DeepResearch-Eval에서 확인할 수 있습니다.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.