ReportBench: Valutazione di Agenti di Ricerca Profonda tramite Compiti di Indagine Accademica
ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
August 14, 2025
Autori: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
cs.AI
Abstract
L'avvento degli agenti di Deep Research ha ridotto significativamente il tempo necessario per svolgere compiti di ricerca estesi. Tuttavia, questi compiti richiedono intrinsecamente standard rigorosi di accuratezza fattuale e completezza, rendendo necessaria una valutazione approfondita prima di un'adozione diffusa. In questo articolo, proponiamo ReportBench, un benchmark sistematico progettato per valutare la qualità del contenuto dei rapporti di ricerca generati da modelli linguistici di grandi dimensioni (LLM). La nostra valutazione si concentra su due dimensioni critiche: (1) la qualità e la pertinenza della letteratura citata, e (2) la fedeltà e la veridicità delle affermazioni contenute nei rapporti generati. ReportBench utilizza articoli di survey di alta qualità pubblicati su arXiv come riferimenti di standard aureo, dai quali applichiamo il reverse prompt engineering per derivare prompt specifici per dominio e stabilire un corpus di valutazione completo. Inoltre, sviluppiamo un framework automatizzato basato su agenti all'interno di ReportBench che analizza sistematicamente i rapporti generati estraendo citazioni e affermazioni, verificando la fedeltà del contenuto citato rispetto alle fonti originali e validando le affermazioni non citate utilizzando risorse basate sul web. Le valutazioni empiriche dimostrano che gli agenti di Deep Research commerciali, come quelli sviluppati da OpenAI e Google, generano rapporti più completi e affidabili rispetto agli LLM autonomi potenziati con strumenti di ricerca o navigazione. Tuttavia, rimane un ampio margine di miglioramento in termini di ampiezza e profondità della copertura della ricerca, nonché di coerenza fattuale. Il codice completo e i dati saranno rilasciati al seguente link: https://github.com/ByteDance-BandAI/ReportBench.
English
The advent of Deep Research agents has substantially reduced the time
required for conducting extensive research tasks. However, these tasks
inherently demand rigorous standards of factual accuracy and comprehensiveness,
necessitating thorough evaluation before widespread adoption. In this paper, we
propose ReportBench, a systematic benchmark designed to evaluate the content
quality of research reports generated by large language models (LLMs). Our
evaluation focuses on two critical dimensions: (1) the quality and relevance of
cited literature, and (2) the faithfulness and veracity of the statements
within the generated reports. ReportBench leverages high-quality published
survey papers available on arXiv as gold-standard references, from which we
apply reverse prompt engineering to derive domain-specific prompts and
establish a comprehensive evaluation corpus. Furthermore, we develop an
agent-based automated framework within ReportBench that systematically analyzes
generated reports by extracting citations and statements, checking the
faithfulness of cited content against original sources, and validating
non-cited claims using web-based resources. Empirical evaluations demonstrate
that commercial Deep Research agents such as those developed by OpenAI and
Google consistently generate more comprehensive and reliable reports than
standalone LLMs augmented with search or browsing tools. However, there remains
substantial room for improvement in terms of the breadth and depth of research
coverage, as well as factual consistency. The complete code and data will be
released at the following link: https://github.com/ByteDance-BandAI/ReportBench