Compreendendo a DeepResearch por meio de Relatórios

Resumo

Os agentes DeepResearch representam um paradigma transformador de IA, realizando pesquisas de nível especializado por meio de raciocínio sofisticado e integração de múltiplas ferramentas. No entanto, avaliar esses sistemas continua sendo um desafio crítico devido a cenários de pesquisa abertos e benchmarks existentes que se concentram em capacidades isoladas em vez de desempenho holístico. Diferentemente das tarefas tradicionais de LLM, os sistemas DeepResearch devem sintetizar fontes diversas, gerar insights e apresentar descobertas coerentes, capacidades que resistem à verificação simples. Para abordar essa lacuna, introduzimos o DeepResearch-ReportEval, um framework abrangente projetado para avaliar sistemas DeepResearch por meio de seus outputs mais representativos: relatórios de pesquisa. Nossa abordagem mede sistematicamente três dimensões: qualidade, redundância e factualidade, utilizando uma metodologia inovadora de LLM-as-a-Judge que alcança forte concordância com especialistas. Contribuímos com um benchmark padronizado de 100 consultas curadas, abrangendo 12 categorias do mundo real, permitindo uma comparação sistemática de capacidades. Nossa avaliação de quatro sistemas comerciais líderes revela filosofias de design distintas e trade-offs de desempenho, estabelecendo insights fundamentais à medida que o DeepResearch evolui de assistentes de informação para parceiros de pesquisa inteligentes. O código-fonte e os dados estão disponíveis em: https://github.com/HKUDS/DeepResearch-Eval.

English

DeepResearch agents represent a transformative AI paradigm, conducting expert-level research through sophisticated reasoning and multi-tool integration. However, evaluating these systems remains critically challenging due to open-ended research scenarios and existing benchmarks that focus on isolated capabilities rather than holistic performance. Unlike traditional LLM tasks, DeepResearch systems must synthesize diverse sources, generate insights, and present coherent findings, which are capabilities that resist simple verification. To address this gap, we introduce DeepResearch-ReportEval, a comprehensive framework designed to assess DeepResearch systems through their most representative outputs: research reports. Our approach systematically measures three dimensions: quality, redundancy, and factuality, using an innovative LLM-as-a-Judge methodology achieving strong expert concordance. We contribute a standardized benchmark of 100 curated queries spanning 12 real-world categories, enabling systematic capability comparison. Our evaluation of four leading commercial systems reveals distinct design philosophies and performance trade-offs, establishing foundational insights as DeepResearch evolves from information assistants toward intelligent research partners. Source code and data are available at: https://github.com/HKUDS/DeepResearch-Eval.

Compreendendo a DeepResearch por meio de Relatórios

Understanding DeepResearch via Reports

Resumo

Support