ChatPaper.aiChatPaper

DREAM: Глубинная оценка исследований с помощью агентных метрик

DREAM: Deep Research Evaluation with Agentic Metrics

February 21, 2026
Авторы: Elad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman
cs.AI

Аннотация

Агенты глубокого исследования генерируют отчеты аналитического уровня, однако их оценка остается сложной задачей из-за отсутствия единственной эталонной истины и многомерного характера качества исследования. Современные бенчмарки предлагают различные методологии, но страдают от «Иллюзии синтеза»: сильная поверхностная беглость и соответствие цитированию могут маскировать фундаментальные фактические и логические дефекты. Мы характеризуем этот разрыв, вводя таксономию по четырем направлениям, которая выявляет критическое несоответствие возможностей: статические оценщики по своей природе лишены возможностей использования инструментов, необходимых для оценки временной достоверности и фактической точности. Для решения этой проблемы мы предлагаем DREAM (Deep Research Evaluation with Agentic Metrics) — фреймворк, реализующий принцип паритета возможностей за счет того, что сама оценка становится агентной. DREAM структурирует оценку через протокол, сочетающий метрики, не зависящие от запроса, с адаптивными метриками, генерируемыми агентом с возможностью вызова инструментов, что позволяет осуществлять временно-ориентированный охват, обоснованную верификацию и систематические проверки логики. Контролируемые оценки демонстрируют, что DREAM значительно чувствительнее к фактическому и временному устареванию, чем существующие бенчмарки, предлагая масштабируемую парадигму оценки, не требующую эталонов.
English
Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.
PDF142March 28, 2026