DROMEN: Diepgaand Onderzoeks Evaluatie met Agentische Metriek

Samenvatting

Deep Research Agents genereren rapporten van analistenkwaliteit, maar de evaluatie ervan blijft uitdagend door het ontbreken van een enkele grondwaarheid en de multidimensionale aard van onderzoekskwaliteit. Recente benchmarks stellen verschillende methodologieën voor, maar lijden aan de *Mirage of Synthesis*, waarbij sterke oppervlakkige vlotheid en citatenaansluiting onderliggende feitelijke en redeneerfouten kunnen verhullen. Wij karakteriseren deze kloof door een taxonomie over vier verticalen te introduceren die een kritieke capaciteitsmismatch blootlegt: statische evaluatoren missen inherent de tool-use capaciteiten die nodig zijn om temporele geldigheid en feitelijke juistheid te beoordelen. Om dit aan te pakken, stellen wij DREAM voor (Deep Research Evaluation with Agentic Metrics), een raamwerk dat het principe van *capability parity* instantieert door evaluatie zelf agentisch te maken. DREAM structureert de beoordeling via een evaluatieprotocol dat query-agnostische metrieken combineert met adaptieve metrieken gegenereerd door een tool-aanroepende agent, waardoor tijdsonafhankelijke dekking, gegronde verificatie en systematische redeneerprobes mogelijk worden. Gecontroleerde evaluaties tonen aan dat DREAM significant gevoeliger is voor feitelijk en temporeel verval dan bestaande benchmarks, en biedt zo een schaalbaar, referentievrij evaluatieparadigma.

English

Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.

DROMEN: Diepgaand Onderzoeks Evaluatie met Agentische Metriek

DREAM: Deep Research Evaluation with Agentic Metrics

Samenvatting

Support