DREAM:エージェント的指標による深層研究評価
DREAM: Deep Research Evaluation with Agentic Metrics
February 21, 2026
著者: Elad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman
cs.AI
要旨
深層研究エージェントはアナリスト級の報告書を生成するが、単一の正解が存在せず、研究品質が多次元的であるため、その評価は依然として困難である。最近のベンチマークでは様々な手法が提案されているが、それらは「統合の幻影(Mirage of Synthesis)」に陥りやすい。すなわち、表面的な流暢性や引用整合性の高さが、背後にある事実認識や推論の欠陥を覆い隠す可能性がある。我々はこの乖離を、4つの垂直領域にわたる分類体系を導入して特徴付け、静的な評価手法が本質的に、時間的妥当性や事実的正確性の評価に必要なツール利用能力を欠いているという重大な能力ミスマッチを明らかにする。この問題に対処するため、評価そのものをエージェント化する「能力パリティ(capability parity)」の原則を具現化するフレームワーク、DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。DREAMは、クエリ非依存の指標と、ツール呼び出し機能を持つエージェントが生成する適応的指標を組み合わせた評価プロトコルを通じて評価を構造化し、時間認識を伴う網羅性、接地検証(grounded verification)、体系的な推論プローブを可能にする。制御評価により、DREAMが既存のベンチマークよりも事実誤りや時間経過に伴う劣化に対して有意に感度が高く、スケーラブルで参照データを必要としない評価パラダイムを提供することを実証する。
English
Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.