DREAM : Évaluation Approfondie de la Recherche par des Métriques Agentiques

Résumé

Les agents de recherche approfondie génèrent des rapports de qualité analytique, mais leur évaluation reste difficile en raison de l'absence d'une vérité terrain unique et de la nature multidimensionnelle de la qualité de la recherche. Les benchmarks récents proposent des méthodologies distinctes, mais ils souffrent du Mirage de la Synthèse, où une forte fluidité de surface et un alignement des citations peuvent masquer des défauts factuels et raisonnés sous-jacents. Nous caractérisons cet écart en introduisant une taxonomie sur quatre axes qui expose un décalage critique des capacités : les évaluateurs statiques manquent intrinsèquement des capacités d'utilisation d'outils nécessaires pour évaluer la validité temporelle et l'exactitude factuelle. Pour résoudre ce problème, nous proposons DREAM (Évaluation Approfondie de la Recherche avec des Métriques Agentiques), un cadre qui matérialise le principe de parité des capacités en rendant l'évaluation elle-même agentique. DREAM structure l'évaluation via un protocole combinant des métriques agnostiques de la requête avec des métriques adaptatives générées par un agent utilisant des outils, permettant une couverture temporellement consciente, une vérification fondée et des sondages raisonnés systématiques. Des évaluations contrôlées démontrent que DREAM est significativement plus sensible à la dégradation factuelle et temporelle que les benchmarks existants, offrant un paradigme d'évaluation évolutif et sans référence.

English

Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.

DREAM : Évaluation Approfondie de la Recherche par des Métriques Agentiques

DREAM: Deep Research Evaluation with Agentic Metrics

Résumé

Support