ChatPaper.aiChatPaper

ReportBench: Оценка глубоких исследовательских агентов через задачи академических опросов

ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

August 14, 2025
Авторы: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
cs.AI

Аннотация

Появление агентов глубокого исследования значительно сократило время, необходимое для выполнения масштабных исследовательских задач. Однако такие задачи по своей природе требуют строгих стандартов фактической точности и полноты, что делает необходимым тщательную оценку перед их широким внедрением. В данной статье мы предлагаем ReportBench — систематический бенчмарк, предназначенный для оценки качества содержания исследовательских отчетов, генерируемых крупными языковыми моделями (LLM). Наша оценка сосредоточена на двух ключевых аспектах: (1) качестве и релевантности цитируемой литературы и (2) достоверности и правдивости утверждений в генерируемых отчетах. ReportBench использует высококачественные обзорные статьи, опубликованные на arXiv, в качестве эталонных источников, из которых мы применяем обратный инжиниринг промптов для создания предметно-ориентированных запросов и формирования комплексного корпуса для оценки. Кроме того, мы разрабатываем автоматизированную агентскую систему в рамках ReportBench, которая систематически анализирует генерируемые отчеты, извлекая цитаты и утверждения, проверяя достоверность цитируемого содержания по исходным источникам и валидируя некцитируемые утверждения с использованием веб-ресурсов. Эмпирические оценки показывают, что коммерческие агенты глубокого исследования, такие как разработанные OpenAI и Google, генерируют более полные и надежные отчеты, чем автономные LLM, дополненные инструментами поиска или просмотра. Тем не менее, остается значительный потенциал для улучшения в плане широты и глубины охвата исследований, а также фактической согласованности. Полный код и данные будут опубликованы по следующей ссылке: https://github.com/ByteDance-BandAI/ReportBench.
English
The advent of Deep Research agents has substantially reduced the time required for conducting extensive research tasks. However, these tasks inherently demand rigorous standards of factual accuracy and comprehensiveness, necessitating thorough evaluation before widespread adoption. In this paper, we propose ReportBench, a systematic benchmark designed to evaluate the content quality of research reports generated by large language models (LLMs). Our evaluation focuses on two critical dimensions: (1) the quality and relevance of cited literature, and (2) the faithfulness and veracity of the statements within the generated reports. ReportBench leverages high-quality published survey papers available on arXiv as gold-standard references, from which we apply reverse prompt engineering to derive domain-specific prompts and establish a comprehensive evaluation corpus. Furthermore, we develop an agent-based automated framework within ReportBench that systematically analyzes generated reports by extracting citations and statements, checking the faithfulness of cited content against original sources, and validating non-cited claims using web-based resources. Empirical evaluations demonstrate that commercial Deep Research agents such as those developed by OpenAI and Google consistently generate more comprehensive and reliable reports than standalone LLMs augmented with search or browsing tools. However, there remains substantial room for improvement in terms of the breadth and depth of research coverage, as well as factual consistency. The complete code and data will be released at the following link: https://github.com/ByteDance-BandAI/ReportBench
PDF71August 27, 2025