ChatPaper.aiChatPaper

ReportBench : Évaluation des agents de recherche approfondie via des tâches d'enquête académique

ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

August 14, 2025
papers.authors: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
cs.AI

papers.abstract

L'avènement des agents de recherche approfondie a considérablement réduit le temps nécessaire pour mener des tâches de recherche approfondies. Cependant, ces tâches exigent intrinsèquement des normes rigoureuses en matière de précision factuelle et d'exhaustivité, nécessitant une évaluation minutieuse avant une adoption généralisée. Dans cet article, nous proposons ReportBench, un benchmark systématique conçu pour évaluer la qualité du contenu des rapports de recherche générés par les grands modèles de langage (LLMs). Notre évaluation se concentre sur deux dimensions critiques : (1) la qualité et la pertinence de la littérature citée, et (2) la fidélité et la véracité des énoncés contenus dans les rapports générés. ReportBench s'appuie sur des articles de synthèse de haute qualité publiés sur arXiv comme références de référence, à partir desquels nous appliquons l'ingénierie inverse des prompts pour dériver des prompts spécifiques au domaine et établir un corpus d'évaluation complet. De plus, nous développons un cadre automatisé basé sur des agents au sein de ReportBench qui analyse systématiquement les rapports générés en extrayant les citations et les énoncés, en vérifiant la fidélité du contenu cité par rapport aux sources originales, et en validant les affirmations non citées à l'aide de ressources web. Les évaluations empiriques démontrent que les agents commerciaux de recherche approfondie, tels que ceux développés par OpenAI et Google, génèrent de manière constante des rapports plus complets et fiables que les LLMs autonomes augmentés d'outils de recherche ou de navigation. Cependant, il reste une marge d'amélioration substantielle en termes d'étendue et de profondeur de la couverture de la recherche, ainsi que de cohérence factuelle. Le code complet et les données seront publiés à l'adresse suivante : https://github.com/ByteDance-BandAI/ReportBench.
English
The advent of Deep Research agents has substantially reduced the time required for conducting extensive research tasks. However, these tasks inherently demand rigorous standards of factual accuracy and comprehensiveness, necessitating thorough evaluation before widespread adoption. In this paper, we propose ReportBench, a systematic benchmark designed to evaluate the content quality of research reports generated by large language models (LLMs). Our evaluation focuses on two critical dimensions: (1) the quality and relevance of cited literature, and (2) the faithfulness and veracity of the statements within the generated reports. ReportBench leverages high-quality published survey papers available on arXiv as gold-standard references, from which we apply reverse prompt engineering to derive domain-specific prompts and establish a comprehensive evaluation corpus. Furthermore, we develop an agent-based automated framework within ReportBench that systematically analyzes generated reports by extracting citations and statements, checking the faithfulness of cited content against original sources, and validating non-cited claims using web-based resources. Empirical evaluations demonstrate that commercial Deep Research agents such as those developed by OpenAI and Google consistently generate more comprehensive and reliable reports than standalone LLMs augmented with search or browsing tools. However, there remains substantial room for improvement in terms of the breadth and depth of research coverage, as well as factual consistency. The complete code and data will be released at the following link: https://github.com/ByteDance-BandAI/ReportBench
PDF51August 27, 2025