Comprendere DeepResearch attraverso i Rapporti
Understanding DeepResearch via Reports
October 9, 2025
Autori: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
Abstract
Gli agenti DeepResearch rappresentano un paradigma AI trasformativo, conducendo ricerche di livello esperto attraverso ragionamenti sofisticati e integrazione multi-strumentale. Tuttavia, valutare questi sistemi rimane una sfida critica a causa di scenari di ricerca aperti e benchmark esistenti che si concentrano su capacità isolate piuttosto che su prestazioni olistiche. A differenza dei tradizionali compiti LLM, i sistemi DeepResearch devono sintetizzare fonti diverse, generare intuizioni e presentare risultati coerenti, capacità che resistono a una verifica semplice. Per colmare questa lacuna, introduciamo DeepResearch-ReportEval, un framework completo progettato per valutare i sistemi DeepResearch attraverso i loro output più rappresentativi: i rapporti di ricerca. Il nostro approccio misura sistematicamente tre dimensioni: qualità, ridondanza e fattualità, utilizzando una metodologia innovativa LLM-as-a-Judge che raggiunge una forte concordanza con gli esperti. Contribuiamo con un benchmark standardizzato di 100 query curate che coprono 12 categorie del mondo reale, consentendo un confronto sistematico delle capacità. La nostra valutazione di quattro sistemi commerciali leader rivela filosofie di design distinte e compromessi prestazionali, stabilendo intuizioni fondamentali mentre DeepResearch evolve da assistenti informativi verso partner di ricerca intelligenti. Codice sorgente e dati sono disponibili su: https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.