DeepResearchEval: Een Geautomatiseerd Framework voor de Constructie van Diepgaande Onderzoektaken en Agent-gebaseerde Evaluatie
DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation
January 14, 2026
Auteurs: Yibo Wang, Lei Wang, Yue Deng, Keming Wu, Yao Xiao, Huanjin Yao, Liwei Kang, Hai Ye, Yongcheng Jing, Lidong Bing
cs.AI
Samenvatting
Diepgaande onderzoekssystemen worden veelvuldig ingezet voor meerstaps webonderzoek, analyse en kruisbron-synthese, maar de evaluatie ervan blijft een uitdaging. Bestaande benchmarks vereisen vaak arbeidsintensieve taakconstructie, steunen op statische evaluatiedimensies, of slagen er niet in feiten betrouwbaar te verifiëren wanneer bronverwijzingen ontbreken. Om deze lacunes te overbruggen, introduceren we DeepResearchEval, een geautomatiseerd raamwerk voor de constructie van diepgaande onderzoektaken en agent-gebaseerde evaluatie. Voor taakconstructie stellen we een persona-gestuurd pipeline voor dat realistische, complexe onderzoektaken genereert, verankerd in diverse gebruikersprofielen, waarbij een tweestapsfilter (Taakkwalificatie en Zoeknoodzaak) wordt toegepast om alleen taken te behouden die multi-bron integratie en externe retrieval vereisen. Voor evaluatie presenteren we een agent-gebaseerde pipeline met twee componenten: een Adaptieve Puntgewijze Kwaliteitsevaluatie die dynamisch taakspecifieke evaluatiedimensies, criteria en gewichten afleidt op basis van elke gegenereerde taak, en een Actieve Feitencontrole die autonoom rapportuitspraken extraheert en verifieert via webzoekopdrachten, zelfs wanneer bronvermeldingen ontbreken.
English
Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.