ReportBench: Оценка глубоких исследовательских агентов через задачи академических опросов
ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
August 14, 2025
Авторы: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
cs.AI
Аннотация
Появление агентов глубокого исследования значительно сократило время, необходимое для выполнения масштабных исследовательских задач. Однако такие задачи по своей природе требуют строгих стандартов фактической точности и полноты, что делает необходимым тщательную оценку перед их широким внедрением. В данной статье мы предлагаем ReportBench — систематический бенчмарк, предназначенный для оценки качества содержания исследовательских отчетов, генерируемых крупными языковыми моделями (LLM). Наша оценка сосредоточена на двух ключевых аспектах: (1) качестве и релевантности цитируемой литературы и (2) достоверности и правдивости утверждений в генерируемых отчетах. ReportBench использует высококачественные обзорные статьи, опубликованные на arXiv, в качестве эталонных источников, из которых мы применяем обратный инжиниринг промптов для создания предметно-ориентированных запросов и формирования комплексного корпуса для оценки. Кроме того, мы разрабатываем автоматизированную агентскую систему в рамках ReportBench, которая систематически анализирует генерируемые отчеты, извлекая цитаты и утверждения, проверяя достоверность цитируемого содержания по исходным источникам и валидируя некцитируемые утверждения с использованием веб-ресурсов. Эмпирические оценки показывают, что коммерческие агенты глубокого исследования, такие как разработанные OpenAI и Google, генерируют более полные и надежные отчеты, чем автономные LLM, дополненные инструментами поиска или просмотра. Тем не менее, остается значительный потенциал для улучшения в плане широты и глубины охвата исследований, а также фактической согласованности. Полный код и данные будут опубликованы по следующей ссылке: https://github.com/ByteDance-BandAI/ReportBench.
English
The advent of Deep Research agents has substantially reduced the time
required for conducting extensive research tasks. However, these tasks
inherently demand rigorous standards of factual accuracy and comprehensiveness,
necessitating thorough evaluation before widespread adoption. In this paper, we
propose ReportBench, a systematic benchmark designed to evaluate the content
quality of research reports generated by large language models (LLMs). Our
evaluation focuses on two critical dimensions: (1) the quality and relevance of
cited literature, and (2) the faithfulness and veracity of the statements
within the generated reports. ReportBench leverages high-quality published
survey papers available on arXiv as gold-standard references, from which we
apply reverse prompt engineering to derive domain-specific prompts and
establish a comprehensive evaluation corpus. Furthermore, we develop an
agent-based automated framework within ReportBench that systematically analyzes
generated reports by extracting citations and statements, checking the
faithfulness of cited content against original sources, and validating
non-cited claims using web-based resources. Empirical evaluations demonstrate
that commercial Deep Research agents such as those developed by OpenAI and
Google consistently generate more comprehensive and reliable reports than
standalone LLMs augmented with search or browsing tools. However, there remains
substantial room for improvement in terms of the breadth and depth of research
coverage, as well as factual consistency. The complete code and data will be
released at the following link: https://github.com/ByteDance-BandAI/ReportBench