DeepResearchEval: 深層研究タスクの自動構築とエージェント的評価のためのフレームワーク
DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation
January 14, 2026
著者: Yibo Wang, Lei Wang, Yue Deng, Keming Wu, Yao Xiao, Huanjin Yao, Liwei Kang, Hai Ye, Yongcheng Jing, Lidong Bing
cs.AI
要旨
深層研究システムは、多段階のウェブ調査・分析・複数ソースの統合に広く利用されているが、その評価は依然として課題が多い。既存のベンチマークでは、注釈集約的なタスク構築が必要であったり、静的な評価次元に依存したり、引用が欠落している場合に事実を確実に検証できなかったりする。これらのギャップを埋めるため、我々は深層研究タスクの自動構築とエージェント的評価のためのフレームワーク「DeepResearchEval」を提案する。タスク構築では、多様なユーザープロファイルに基づく現実的で複雑な研究タスクを生成するペルソナ駆動パイプラインを採用し、多ソース証拠統合と外部検索を必要とするタスクのみを保持するための二段階フィルタ(タスク適格性判定と検索必要性判定)を適用する。評価においては、二つのコンポーネントからなるエージェント的パイプラインを提案する:適応的ポイント単位品質評価は、生成された各タスクに条件付けられたタスク固有の評価次元・基準・重みを動的に導出し、能動的事実検証は、引用が欠落している場合でもウェブ検索を通じて報告文を自律的に抽出・検証する。
English
Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.