DREAM: Tiefgreifende Forschungsbewertung mit agentenbasierten Metriken

Zusammenfassung

Deep Research Agents generieren Analysten-gleiche Berichte, doch ihre Bewertung bleibt aufgrund fehlender eindeutiger Referenzwerte und der multidimensionalen Natur von Forschungsqualität herausfordernd. Aktuelle Benchmarks schlagen unterschiedliche Methodologien vor, leiden jedoch unter dem „Mirage of Synthesis“-Effekt, bei dem starke oberflächliche Flüssigkeit und Zitationsübereinstimmung zugrunde liegende faktische und logische Mängel verschleiern können. Wir charakterisieren diese Lücke durch eine Taxonomie über vier Dimensionen, die eine kritische Fähigkeitsdiskrepanz aufdeckt: Statische Evaluatoren fehlen inhärent die Werkzeugnutzungsfähigkeiten, die zur Bewertung temporaler Validität und faktischer Korrektheit erforderlich sind. Um dies zu adressieren, schlagen wir DREAM (Deep Research Evaluation with Agentic Metrics) vor, ein Framework, das das Prinzip der Fähigkeitsparität verwirklicht, indem es die Evaluation selbst agentenbasiert gestaltet. DREAM strukturiert die Bewertung durch ein Evaluationsprotokoll, das abfrageagnostische Metriken mit adaptiven Metriken kombiniert, die von einem werkzeugnutzenden Agenten generiert werden. Dies ermöglicht zeitlich sensible Abdeckung, geerdete Verifikation und systematische Reasoning-Tests. Kontrollierte Evaluationen zeigen, dass DREAM signifikant empfindlicher auf faktischen und zeitlichen Verfall reagiert als bestehende Benchmarks und ein skalierbares, referenzfreies Evaluationsparadigma bietet.

English

Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.

DREAM: Tiefgreifende Forschungsbewertung mit agentenbasierten Metriken

DREAM: Deep Research Evaluation with Agentic Metrics

Zusammenfassung

Support