Comprensión de DeepResearch a través de informes
Understanding DeepResearch via Reports
October 9, 2025
Autores: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
Resumen
Los agentes DeepResearch representan un paradigma transformador de la IA, realizando investigaciones de nivel experto mediante razonamiento sofisticado e integración de múltiples herramientas. Sin embargo, evaluar estos sistemas sigue siendo un desafío crítico debido a escenarios de investigación abiertos y benchmarks existentes que se centran en capacidades aisladas en lugar del desempeño holístico. A diferencia de las tareas tradicionales de LLM, los sistemas DeepResearch deben sintetizar fuentes diversas, generar insights y presentar hallazgos coherentes, capacidades que resisten una verificación simple. Para abordar esta brecha, presentamos DeepResearch-ReportEval, un marco integral diseñado para evaluar sistemas DeepResearch a través de sus resultados más representativos: informes de investigación. Nuestro enfoque mide sistemáticamente tres dimensiones: calidad, redundancia y factualidad, utilizando una metodología innovadora de LLM-como-Juez que logra una fuerte concordancia experta. Contribuimos con un benchmark estandarizado de 100 consultas curadas que abarcan 12 categorías del mundo real, permitiendo una comparación sistemática de capacidades. Nuestra evaluación de cuatro sistemas comerciales líderes revela filosofías de diseño distintas y compensaciones de rendimiento, estableciendo insights fundamentales a medida que DeepResearch evoluciona de asistentes de información hacia socios de investigación inteligentes. El código fuente y los datos están disponibles en: https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.