DREAM: Глубинная оценка исследований с помощью агентных метрик

Аннотация

Агенты глубокого исследования генерируют отчеты аналитического уровня, однако их оценка остается сложной задачей из-за отсутствия единственной эталонной истины и многомерного характера качества исследования. Современные бенчмарки предлагают различные методологии, но страдают от «Иллюзии синтеза»: сильная поверхностная беглость и соответствие цитированию могут маскировать фундаментальные фактические и логические дефекты. Мы характеризуем этот разрыв, вводя таксономию по четырем направлениям, которая выявляет критическое несоответствие возможностей: статические оценщики по своей природе лишены возможностей использования инструментов, необходимых для оценки временной достоверности и фактической точности. Для решения этой проблемы мы предлагаем DREAM (Deep Research Evaluation with Agentic Metrics) — фреймворк, реализующий принцип паритета возможностей за счет того, что сама оценка становится агентной. DREAM структурирует оценку через протокол, сочетающий метрики, не зависящие от запроса, с адаптивными метриками, генерируемыми агентом с возможностью вызова инструментов, что позволяет осуществлять временно-ориентированный охват, обоснованную верификацию и систематические проверки логики. Контролируемые оценки демонстрируют, что DREAM значительно чувствительнее к фактическому и временному устареванию, чем существующие бенчмарки, предлагая масштабируемую парадигму оценки, не требующую эталонов.

English

Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.

DREAM: Глубинная оценка исследований с помощью агентных метрик

DREAM: Deep Research Evaluation with Agentic Metrics

Аннотация

Support