ChatPaper.aiChatPaper

DeepResearchEval: 심층 연구 과제 자동 구성 및 에이전트 평가 프레임워크

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

January 14, 2026
저자: Yibo Wang, Lei Wang, Yue Deng, Keming Wu, Yao Xiao, Huanjin Yao, Liwei Kang, Hai Ye, Yongcheng Jing, Lidong Bing
cs.AI

초록

딥 리서치 시스템은 다단계 웹 조사, 분석 및 크로스-소스 통합에 널리 사용되지만, 이에 대한 평가는 여전히 어려운 과제로 남아 있습니다. 기존 벤치마크는 주석 중심의 과제 구성이 필요하거나, 정적인 평가 차원에 의존하거나, 인용이 누락된 경우 사실을 신뢰성 있게 검증하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 딥 리서치 과제 구성 및 에이전트 기반 평가를 위한 자동화 프레임워크인 DeepResearchEval을 소개합니다. 과제 구성 측면에서는 다양한 사용자 프로파일에 기반한 현실적이고 복잡한 연구 과제를 생성하는 페르소나 기반 파이프라인을 제안하며, '과제 적격성'과 '검색 필요성'이라는 2단계 필터를 적용하여 다중 소스 증거 통합과 외부 검색이 필요한 과제만 선별합니다. 평가 측면에서는 두 가지 구성 요소로 이루어진 에이전트 기반 파이프라인을 제안합니다: 첫째, 생성된 각 과제에 조건화되어 과제별 평가 차원, 기준 및 가중치를 동적으로 도출하는 '적응형 점별 품질 평가'와, 둘째, 인용이 누락된 경우에도 웹 검색을 통해 보고서 진술을 자율적으로 추출 및 검증하는 '능동적 사실 확인'입니다.
English
Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.
PDF901January 16, 2026