DREAM: Valutazione Approfondita della Ricerca con Metriche Agenti
DREAM: Deep Research Evaluation with Agentic Metrics
February 21, 2026
Autori: Elad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman
cs.AI
Abstract
Gli Agenti di Ricerca Approfondita generano report di livello analitico, ma la loro valutazione rimane complessa a causa dell'assenza di una verità assoluta unica e della natura multidimensionale della qualità della ricerca. I benchmark recenti propongono metodologie distinte, ma soffrono dell'Inganno della Sintesi, dove una forte fluidità superficiale e un allineamento citazionale possono oscurare difetti fattuali e ragionativi sottostanti. Caratterizziamo questo divario introducendo una tassonomia su quattro assi che rivela un critico disallineamento delle capacità: i valutatori statici sono intrinsecamente privi delle capacità di utilizzo degli strumenti necessarie per valutare la validità temporale e la correttezza fattuale. Per affrontare ciò, proponiamo DREAM (Valutazione Approfondita della Ricerca con Metriche Agenti), un framework che concretizza il principio di parità delle capacità rendendo agente la valutazione stessa. DREAM struttura la valutazione attraverso un protocollo che combina metriche indipendenti dalla query con metriche adattive generate da un agente abilitato all'uso di strumenti, consentendo una copertura temporalmente consapevole, una verifica fondata e sondaggi ragionativi sistematici. Valutazioni controllate dimostrano che DREAM è significativamente più sensibile al decadimento fattuale e temporale rispetto ai benchmark esistenti, offrendo un paradigma di valutazione scalabile e privo di riferimenti.
English
Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.