ReportBench: Bewertung von Deep Research Agents durch akademische Umfrageaufgaben

papers.abstract

Die Einführung von Deep Research Agents hat die Zeit, die für umfangreiche Forschungsaufgaben benötigt wird, erheblich reduziert. Diese Aufgaben erfordern jedoch von Natur aus strenge Standards in Bezug auf faktische Genauigkeit und Vollständigkeit, was eine gründliche Bewertung vor der breiten Anwendung notwendig macht. In diesem Artikel schlagen wir ReportBench vor, einen systematischen Benchmark, der entwickelt wurde, um die Inhaltsqualität von Forschungsberichten zu bewerten, die von großen Sprachmodellen (LLMs) generiert werden. Unsere Bewertung konzentriert sich auf zwei kritische Dimensionen: (1) die Qualität und Relevanz der zitierten Literatur und (2) die Treue und Wahrhaftigkeit der Aussagen in den generierten Berichten. ReportBench nutzt hochwertige veröffentlichte Übersichtsarbeiten auf arXiv als Goldstandard-Referenzen, aus denen wir durch Reverse-Prompt-Engineering domänenspezifische Prompts ableiten und ein umfassendes Evaluationskorpus erstellen. Darüber hinaus entwickeln wir innerhalb von ReportBench ein agentenbasiertes automatisiertes Framework, das generierte Berichte systematisch analysiert, indem es Zitate und Aussagen extrahiert, die Treue des zitierten Inhalts anhand der Originalquellen überprüft und nicht zitierte Behauptungen mithilfe webbasierter Ressourcen validiert. Empirische Auswertungen zeigen, dass kommerzielle Deep Research Agents wie die von OpenAI und Google entwickelten durchweg umfassendere und zuverlässigere Berichte generieren als eigenständige LLMs, die mit Such- oder Browsing-Tools erweitert wurden. Dennoch gibt es erheblichen Verbesserungsbedarf in Bezug auf die Breite und Tiefe der Forschungsabdeckung sowie die faktische Konsistenz. Der vollständige Code und die Daten werden unter folgendem Link veröffentlicht: https://github.com/ByteDance-BandAI/ReportBench

English

The advent of Deep Research agents has substantially reduced the time required for conducting extensive research tasks. However, these tasks inherently demand rigorous standards of factual accuracy and comprehensiveness, necessitating thorough evaluation before widespread adoption. In this paper, we propose ReportBench, a systematic benchmark designed to evaluate the content quality of research reports generated by large language models (LLMs). Our evaluation focuses on two critical dimensions: (1) the quality and relevance of cited literature, and (2) the faithfulness and veracity of the statements within the generated reports. ReportBench leverages high-quality published survey papers available on arXiv as gold-standard references, from which we apply reverse prompt engineering to derive domain-specific prompts and establish a comprehensive evaluation corpus. Furthermore, we develop an agent-based automated framework within ReportBench that systematically analyzes generated reports by extracting citations and statements, checking the faithfulness of cited content against original sources, and validating non-cited claims using web-based resources. Empirical evaluations demonstrate that commercial Deep Research agents such as those developed by OpenAI and Google consistently generate more comprehensive and reliable reports than standalone LLMs augmented with search or browsing tools. However, there remains substantial room for improvement in terms of the breadth and depth of research coverage, as well as factual consistency. The complete code and data will be released at the following link: https://github.com/ByteDance-BandAI/ReportBench

ReportBench: Bewertung von Deep Research Agents durch akademische Umfrageaufgaben

ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

papers.abstract

Support