ReportBench: Bewertung von Deep Research Agents durch akademische Umfrageaufgaben
ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks
August 14, 2025
papers.authors: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia
cs.AI
papers.abstract
Die Einführung von Deep Research Agents hat die Zeit, die für umfangreiche Forschungsaufgaben benötigt wird, erheblich reduziert. Diese Aufgaben erfordern jedoch von Natur aus strenge Standards in Bezug auf faktische Genauigkeit und Vollständigkeit, was eine gründliche Bewertung vor der breiten Anwendung notwendig macht. In diesem Artikel schlagen wir ReportBench vor, einen systematischen Benchmark, der entwickelt wurde, um die Inhaltsqualität von Forschungsberichten zu bewerten, die von großen Sprachmodellen (LLMs) generiert werden. Unsere Bewertung konzentriert sich auf zwei kritische Dimensionen: (1) die Qualität und Relevanz der zitierten Literatur und (2) die Treue und Wahrhaftigkeit der Aussagen in den generierten Berichten. ReportBench nutzt hochwertige veröffentlichte Übersichtsarbeiten auf arXiv als Goldstandard-Referenzen, aus denen wir durch Reverse-Prompt-Engineering domänenspezifische Prompts ableiten und ein umfassendes Evaluationskorpus erstellen. Darüber hinaus entwickeln wir innerhalb von ReportBench ein agentenbasiertes automatisiertes Framework, das generierte Berichte systematisch analysiert, indem es Zitate und Aussagen extrahiert, die Treue des zitierten Inhalts anhand der Originalquellen überprüft und nicht zitierte Behauptungen mithilfe webbasierter Ressourcen validiert. Empirische Auswertungen zeigen, dass kommerzielle Deep Research Agents wie die von OpenAI und Google entwickelten durchweg umfassendere und zuverlässigere Berichte generieren als eigenständige LLMs, die mit Such- oder Browsing-Tools erweitert wurden. Dennoch gibt es erheblichen Verbesserungsbedarf in Bezug auf die Breite und Tiefe der Forschungsabdeckung sowie die faktische Konsistenz. Der vollständige Code und die Daten werden unter folgendem Link veröffentlicht: https://github.com/ByteDance-BandAI/ReportBench
English
The advent of Deep Research agents has substantially reduced the time
required for conducting extensive research tasks. However, these tasks
inherently demand rigorous standards of factual accuracy and comprehensiveness,
necessitating thorough evaluation before widespread adoption. In this paper, we
propose ReportBench, a systematic benchmark designed to evaluate the content
quality of research reports generated by large language models (LLMs). Our
evaluation focuses on two critical dimensions: (1) the quality and relevance of
cited literature, and (2) the faithfulness and veracity of the statements
within the generated reports. ReportBench leverages high-quality published
survey papers available on arXiv as gold-standard references, from which we
apply reverse prompt engineering to derive domain-specific prompts and
establish a comprehensive evaluation corpus. Furthermore, we develop an
agent-based automated framework within ReportBench that systematically analyzes
generated reports by extracting citations and statements, checking the
faithfulness of cited content against original sources, and validating
non-cited claims using web-based resources. Empirical evaluations demonstrate
that commercial Deep Research agents such as those developed by OpenAI and
Google consistently generate more comprehensive and reliable reports than
standalone LLMs augmented with search or browsing tools. However, there remains
substantial room for improvement in terms of the breadth and depth of research
coverage, as well as factual consistency. The complete code and data will be
released at the following link: https://github.com/ByteDance-BandAI/ReportBench