DR^{3}-Eval: Hacia una Evaluación Realista y Reproducible de la Investigación en Aprendizaje Profundo
DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
April 16, 2026
Autores: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, Chengkang Jiang, Zhaohui Wang, Yubin Guo, Yuqing Wen, Jiayang Mao, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu
cs.AI
Resumen
Los Agentes de Investigación Profunda (DRA) tienen como objetivo resolver tareas de investigación complejas y de largo horizonte que involucran planificación, recuperación de información, comprensión multimodal y generación de informes; sin embargo, su evaluación sigue siendo un desafío debido a los entornos web dinámicos y las definiciones de tareas ambiguas. Proponemos DR^{3}-Eval, un benchmark realista y reproducible para evaluar agentes de investigación profunda en la generación de informes multimodales y multiarchivo. DR^{3}-Eval se construye a partir de materiales auténticos proporcionados por usuarios y se combina con un corpus estático de entorno de investigación por tarea que simula la complejidad de la web abierta mientras permanece completamente verificable, conteniendo documentos de apoyo, distractores y ruido. Además, introducimos un marco de evaluación multidimensional que mide la Recuperación de Información, la Exactitud Factual, la Cobertura de Citas, el Seguimiento de Instrucciones y la Calidad de Profundidad, y validamos su alineación con los juicios humanos. Los experimentos con nuestro sistema multiagente desarrollado DR^{3}-Agent, basado en múltiples modelos de lenguaje de vanguardia, demuestran que DR^{3}-Eval es altamente desafiante y revela modos de fallo críticos en la robustez de la recuperación y el control de alucinaciones. Nuestro código y datos están disponibles públicamente.
English
Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.