DREAM: Evaluación Profunda de Investigación con Métricas Agénticas

Resumen

Los Agentes de Investigación Profunda generan informes de nivel analítico, sin embargo, evaluarlos sigue siendo un desafío debido a la ausencia de una única verdad de referencia y a la naturaleza multidimensional de la calidad investigadora. Benchmarks recientes proponen metodologías distintas, pero adolecen del Espejismo de la Síntesis, donde una fuerte fluidez superficial y una alineación de citas pueden ocultar defectos factuales y de razonamiento subyacentes. Caracterizamos esta brecha introduciendo una taxonomía en cuatro vertientes que expone una discordancia crítica de capacidades: los evaluadores estáticos carecen inherentemente de las capacidades de uso de herramientas necesarias para evaluar la validez temporal y la corrección factual. Para abordarlo, proponemos DREAM (Evaluación de Investigación Profunda con Métricas Agénticas), un marco que instancia el principio de paridad de capacidades haciendo que la evaluación misma sea agéntica. DREAM estructura la evaluación mediante un protocolo que combina métricas independientes de la consulta con métricas adaptativas generadas por un agente con capacidad de usar herramientas, permitiendo una cobertura consciente del tiempo, verificación fundamentada y sondeos de razonamiento sistemáticos. Evaluaciones controladas demuestran que DREAM es significativamente más sensible a la decadencia factual y temporal que los benchmarks existentes, ofreciendo un paradigma de evaluación escalable y libre de referencias.

English

Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.

DREAM: Evaluación Profunda de Investigación con Métricas Agénticas

DREAM: Deep Research Evaluation with Agentic Metrics

Resumen

Support