DREAM: Avaliação de Pesquisa Profunda com Métricas Agênticas

Resumo

Os Agentes de Pesquisa Profunda geram relatórios de nível analítico, mas a sua avaliação permanece um desafio devido à ausência de uma única verdade fundamental e à natureza multidimensional da qualidade da pesquisa. *Benchmarks* recentes propõem metodologias distintas, mas padecem da *Ilusão da Síntese*, onde uma forte fluência superficial e um alinhamento preciso com citações podem ocultar defeitos factuais e de raciocínio subjacentes. Caracterizamos esta lacuna introduzindo uma taxonomia em quatro verticais que expõe uma incompatibilidade crítica de capacidades: os avaliadores estáticos carecem inerentemente das capacidades de uso de ferramentas necessárias para avaliar a validade temporal e a correção factual. Para resolver isto, propomos o DREAM (*Deep Research Evaluation with Agentic Metrics*), uma estrutura que instancia o princípio da paridade de capacidades tornando a própria avaliação agentiva. O DREAM estrutura a avaliação através de um protocolo que combina métricas independentes de consulta com métricas adaptativas geradas por um agente com capacidade de usar ferramentas, permitindo uma cobertura consciente do tempo, verificação fundamentada e sondagens de raciocínio sistemáticas. Avaliações controladas demonstram que o DREAM é significativamente mais sensível ao decaimento factual e temporal do que os *benchmarks* existentes, oferecendo um paradigma de avaliação escalável e livre de referências.

English

Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.

DREAM: Avaliação de Pesquisa Profunda com Métricas Agênticas

DREAM: Deep Research Evaluation with Agentic Metrics

Resumo

Support