Um Benchmark Rigoroso com Avaliação Multidimensional para Agentes de Pesquisa Profunda: De Respostas a Relatórios
A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports
October 2, 2025
Autores: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI
Resumo
A inteligência artificial está passando por uma mudança de paradigma, de modelos de linguagem fechados para sistemas de agentes interconectados capazes de percepção externa e integração de informações. Como uma representação emblemática, os Agentes de Pesquisa Profunda (DRAs, na sigla em inglês) demonstram sistematicamente capacidades para decomposição de tarefas, recuperação de fontes cruzadas, raciocínio em múltiplas etapas e saída estruturada, o que melhora significativamente o desempenho em tarefas complexas e de natureza aberta. No entanto, os benchmarks existentes ainda apresentam deficiências nas dimensões de avaliação, formatação de respostas e mecanismos de pontuação, limitando sua capacidade de avaliar tais sistemas de forma eficaz. Este artigo introduz um benchmark rigoroso e uma estrutura de avaliação multidimensional adaptada aos DRAs e respostas no formato de relatório. O benchmark compreende 214 consultas desafiadoras, curadas por especialistas e distribuídas em 10 domínios temáticos amplos, cada uma acompanhada por pacotes de referência construídos manualmente para apoiar uma avaliação composta. A estrutura permite uma avaliação abrangente de relatórios de longo formato gerados por DRAs, incorporando métricas de pontuação integradas para qualidade semântica, foco temático e confiabilidade de recuperação. Experimentos extensivos confirmam o desempenho superior dos DRAs convencionais em comparação com modelos de raciocínio aumentados por ferramentas de busca na web, mas revelam um espaço considerável para melhorias adicionais. Este estudo fornece uma base robusta para avaliação de capacidades, refinamento arquitetônico e avanço de paradigmas em sistemas DRA.
English
Artificial intelligence is undergoing the paradigm shift from closed language
models to interconnected agent systems capable of external perception and
information integration. As a representative embodiment, Deep Research Agents
(DRAs) systematically exhibit the capabilities for task decomposition,
cross-source retrieval, multi-stage reasoning, and structured output, which
markedly enhance performance on complex and open-ended tasks. However, existing
benchmarks remain deficient in evaluation dimensions, response formatting, and
scoring mechanisms, limiting their capacity to assess such systems effectively.
This paper introduces a rigorous benchmark and a multidimensional evaluation
framework tailored to DRAs and report-style responses. The benchmark comprises
214 expert-curated challenging queries distributed across 10 broad thematic
domains, each accompanied by manually constructed reference bundles to support
composite evaluation. The framework enables comprehensive evaluation of
long-form reports generated by DRAs, incorporating integrated scoring metrics
for semantic quality, topical focus, and retrieval trustworthiness. Extensive
experimentation confirms the superior performance of mainstream DRAs over
web-search-tool-augmented reasoning models, yet reveals considerable scope for
further improvement. This study provides a robust foundation for capability
assessment, architectural refinement, and paradigm advancement in DRA systems.