¿A qué distancia estamos de los agentes de investigación profunda genuinamente útiles?
How Far Are We from Genuinely Useful Deep Research Agents?
December 1, 2025
Autores: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Resumen
Los Agentes de Investigación Profunda (DRA) tienen como objetivo producir automáticamente informes de nivel analítico mediante la recuperación y síntesis iterativa de información. Sin embargo, la mayoría de los DRA existentes se validaron en benchmarks de preguntas y respuestas, mientras que la investigación sobre la generación de informes integrales sigue estando desatendida. Peor aún, los benchmarks actuales para la síntesis de informes adolecen de complejidad de tarea y métricas subjetivas, lo que no refleja las demandas de los usuarios y limita la utilidad práctica de los informes generados. Para abordar estas deficiencias, presentamos Fine-grained DEepResearch bench (FINDER), un benchmark mejorado que consta de 100 tareas de investigación curadas por humanos con 419 ítems de lista de verificación estructurados que estandarizan la estructura del informe, la profundidad analítica y la base fáctica. Basándonos en aproximadamente 1.000 informes producidos por DRA convencionales, proponemos además Deep rEsearch Failure Taxonomy (DEFT), la primera taxonomía de fallos para agentes de investigación profunda. DEFT contiene 14 modos de fallo de grano fino en razonamiento, recuperación y generación, y se construye sobre teoría fundamentada con co-anotación humano-LLM y validación de confiabilidad inter-anotadores. Nuestros hallazgos experimentales revelan que los DRA actuales no tienen dificultades con la comprensión de la tarea, sino con la integración de evidencias, la verificación y la planificación resiliente al razonamiento.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.