DR^{3}-Eval: Hacia una Evaluación Realista y Reproducible de la Investigación en Aprendizaje Profundo

Resumen

Los Agentes de Investigación Profunda (DRA) tienen como objetivo resolver tareas de investigación complejas y de largo horizonte que involucran planificación, recuperación de información, comprensión multimodal y generación de informes; sin embargo, su evaluación sigue siendo un desafío debido a los entornos web dinámicos y las definiciones de tareas ambiguas. Proponemos DR^{3}-Eval, un benchmark realista y reproducible para evaluar agentes de investigación profunda en la generación de informes multimodales y multiarchivo. DR^{3}-Eval se construye a partir de materiales auténticos proporcionados por usuarios y se combina con un corpus estático de entorno de investigación por tarea que simula la complejidad de la web abierta mientras permanece completamente verificable, conteniendo documentos de apoyo, distractores y ruido. Además, introducimos un marco de evaluación multidimensional que mide la Recuperación de Información, la Exactitud Factual, la Cobertura de Citas, el Seguimiento de Instrucciones y la Calidad de Profundidad, y validamos su alineación con los juicios humanos. Los experimentos con nuestro sistema multiagente desarrollado DR^{3}-Agent, basado en múltiples modelos de lenguaje de vanguardia, demuestran que DR^{3}-Eval es altamente desafiante y revela modos de fallo críticos en la robustez de la recuperación y el control de alucinaciones. Nuestro código y datos están disponibles públicamente.

English

Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.

DR^{3}-Eval: Hacia una Evaluación Realista y Reproducible de la Investigación en Aprendizaje Profundo

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Resumen

Support