ChatPaper.aiChatPaper

DR³-Eval: Rumo a uma Avaliação Realista e Reprodutível da Pesquisa em Aprendizagem Profunda

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

April 16, 2026
Autores: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, Chengkang Jiang, Zhaohui Wang, Yubin Guo, Yuqing Wen, Jiayang Mao, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu
cs.AI

Resumo

Os Agentes de Pesquisa Profunda (DRAs) visam resolver tarefas de pesquisa complexas e de longo prazo que envolvem planejamento, recuperação de informações, compreensão multimodal e geração de relatórios. No entanto, sua avaliação permanece desafiadora devido aos ambientes web dinâmicos e a definições de tarefas ambíguas. Propomos o DR³-Eval, um benchmark realista e reproduzível para avaliar agentes de pesquisa profunda na geração de relatórios multimodais e multiarquivo. O DR³-Eval é construído a partir de materiais autênticos fornecidos por usuários e emparelhado com um corpus estático de sandbox de pesquisa por tarefa que simula a complexidade da web aberta, mantendo-se totalmente verificável, contendo documentos de apoio, distratores e ruído. Além disso, introduzimos uma estrutura de avaliação multidimensional que mede a Recuperação de Informações, a Precisão Factual, a Cobertura de Citações, o Seguimento de Instruções e a Qualidade de Profundidade, e validamos seu alinhamento com os julgamentos humanos. Experimentos com nosso sistema multiagente desenvolvido, o DR³-Agent, baseado em múltiplos modelos de linguagem state-of-the-art, demonstram que o DR³-Eval é altamente desafiador e revela modos críticos de falha na robustez da recuperação e no controle de alucinações. Nosso código e dados estão publicamente disponíveis.
English
Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.
PDF242April 18, 2026