Compreendendo a DeepResearch por meio de Relatórios
Understanding DeepResearch via Reports
October 9, 2025
Autores: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
Resumo
Os agentes DeepResearch representam um paradigma transformador de IA, realizando pesquisas de nível especializado por meio de raciocínio sofisticado e integração de múltiplas ferramentas. No entanto, avaliar esses sistemas continua sendo um desafio crítico devido a cenários de pesquisa abertos e benchmarks existentes que se concentram em capacidades isoladas em vez de desempenho holístico. Diferentemente das tarefas tradicionais de LLM, os sistemas DeepResearch devem sintetizar fontes diversas, gerar insights e apresentar descobertas coerentes, capacidades que resistem à verificação simples. Para abordar essa lacuna, introduzimos o DeepResearch-ReportEval, um framework abrangente projetado para avaliar sistemas DeepResearch por meio de seus outputs mais representativos: relatórios de pesquisa. Nossa abordagem mede sistematicamente três dimensões: qualidade, redundância e factualidade, utilizando uma metodologia inovadora de LLM-as-a-Judge que alcança forte concordância com especialistas. Contribuímos com um benchmark padronizado de 100 consultas curadas, abrangendo 12 categorias do mundo real, permitindo uma comparação sistemática de capacidades. Nossa avaliação de quatro sistemas comerciais líderes revela filosofias de design distintas e trade-offs de desempenho, estabelecendo insights fundamentais à medida que o DeepResearch evolui de assistentes de informação para parceiros de pesquisa inteligentes. O código-fonte e os dados estão disponíveis em: https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.