ChatPaper.aiChatPaper

ReportBench: Valutazione di Agenti di Ricerca Profonda tramite Compiti di Indagine Accademica

ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

August 14, 2025
Autori: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
cs.AI

Abstract

L'avvento degli agenti di Deep Research ha ridotto significativamente il tempo necessario per svolgere compiti di ricerca estesi. Tuttavia, questi compiti richiedono intrinsecamente standard rigorosi di accuratezza fattuale e completezza, rendendo necessaria una valutazione approfondita prima di un'adozione diffusa. In questo articolo, proponiamo ReportBench, un benchmark sistematico progettato per valutare la qualità del contenuto dei rapporti di ricerca generati da modelli linguistici di grandi dimensioni (LLM). La nostra valutazione si concentra su due dimensioni critiche: (1) la qualità e la pertinenza della letteratura citata, e (2) la fedeltà e la veridicità delle affermazioni contenute nei rapporti generati. ReportBench utilizza articoli di survey di alta qualità pubblicati su arXiv come riferimenti di standard aureo, dai quali applichiamo il reverse prompt engineering per derivare prompt specifici per dominio e stabilire un corpus di valutazione completo. Inoltre, sviluppiamo un framework automatizzato basato su agenti all'interno di ReportBench che analizza sistematicamente i rapporti generati estraendo citazioni e affermazioni, verificando la fedeltà del contenuto citato rispetto alle fonti originali e validando le affermazioni non citate utilizzando risorse basate sul web. Le valutazioni empiriche dimostrano che gli agenti di Deep Research commerciali, come quelli sviluppati da OpenAI e Google, generano rapporti più completi e affidabili rispetto agli LLM autonomi potenziati con strumenti di ricerca o navigazione. Tuttavia, rimane un ampio margine di miglioramento in termini di ampiezza e profondità della copertura della ricerca, nonché di coerenza fattuale. Il codice completo e i dati saranno rilasciati al seguente link: https://github.com/ByteDance-BandAI/ReportBench.
English
The advent of Deep Research agents has substantially reduced the time required for conducting extensive research tasks. However, these tasks inherently demand rigorous standards of factual accuracy and comprehensiveness, necessitating thorough evaluation before widespread adoption. In this paper, we propose ReportBench, a systematic benchmark designed to evaluate the content quality of research reports generated by large language models (LLMs). Our evaluation focuses on two critical dimensions: (1) the quality and relevance of cited literature, and (2) the faithfulness and veracity of the statements within the generated reports. ReportBench leverages high-quality published survey papers available on arXiv as gold-standard references, from which we apply reverse prompt engineering to derive domain-specific prompts and establish a comprehensive evaluation corpus. Furthermore, we develop an agent-based automated framework within ReportBench that systematically analyzes generated reports by extracting citations and statements, checking the faithfulness of cited content against original sources, and validating non-cited claims using web-based resources. Empirical evaluations demonstrate that commercial Deep Research agents such as those developed by OpenAI and Google consistently generate more comprehensive and reliable reports than standalone LLMs augmented with search or browsing tools. However, there remains substantial room for improvement in terms of the breadth and depth of research coverage, as well as factual consistency. The complete code and data will be released at the following link: https://github.com/ByteDance-BandAI/ReportBench
PDF153August 27, 2025