DR³-Eval: Rumo a uma Avaliação Realista e Reprodutível da Pesquisa em Aprendizagem Profunda

Resumo

Os Agentes de Pesquisa Profunda (DRAs) visam resolver tarefas de pesquisa complexas e de longo prazo que envolvem planejamento, recuperação de informações, compreensão multimodal e geração de relatórios. No entanto, sua avaliação permanece desafiadora devido aos ambientes web dinâmicos e a definições de tarefas ambíguas. Propomos o DR³-Eval, um benchmark realista e reproduzível para avaliar agentes de pesquisa profunda na geração de relatórios multimodais e multiarquivo. O DR³-Eval é construído a partir de materiais autênticos fornecidos por usuários e emparelhado com um corpus estático de sandbox de pesquisa por tarefa que simula a complexidade da web aberta, mantendo-se totalmente verificável, contendo documentos de apoio, distratores e ruído. Além disso, introduzimos uma estrutura de avaliação multidimensional que mede a Recuperação de Informações, a Precisão Factual, a Cobertura de Citações, o Seguimento de Instruções e a Qualidade de Profundidade, e validamos seu alinhamento com os julgamentos humanos. Experimentos com nosso sistema multiagente desenvolvido, o DR³-Agent, baseado em múltiplos modelos de linguagem state-of-the-art, demonstram que o DR³-Eval é altamente desafiador e revela modos críticos de falha na robustez da recuperação e no controle de alucinações. Nosso código e dados estão publicamente disponíveis.

English

Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.

DR³-Eval: Rumo a uma Avaliação Realista e Reprodutível da Pesquisa em Aprendizagem Profunda

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Resumo

Support