ChatPaper.aiChatPaper

DeepScholar-Bench: Ein Live-Benchmark und automatisierte Bewertung für generative Forschungssynthese

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

August 27, 2025
papers.authors: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI

papers.abstract

Die Fähigkeit, Wissen zu erforschen und zu synthetisieren, ist zentral für menschliche Expertise und Fortschritt. Eine aufstrebende Klasse von Systemen verspricht diese spannenden Fähigkeiten durch generative Forschungssynthese, indem sie über das Live-Web recherchiert und entdeckte Quellen in langformatige, zitierte Zusammenfassungen integriert. Die Bewertung solcher Systeme bleibt jedoch eine offene Herausforderung: bestehende Frage-Antwort-Benchmarks konzentrieren sich auf kurze, faktenbasierte Antworten, während von Experten kuratierte Datensätze das Risiko von Veralterung und Datenkontamination bergen. Beide Ansätze erfassen nicht die Komplexität und die sich entwickelnde Natur echter Forschungssyntheseaufgaben. In dieser Arbeit stellen wir DeepScholar-bench vor, einen Live-Benchmark und ein ganzheitliches, automatisiertes Bewertungsframework, das entwickelt wurde, um generative Forschungssynthese zu evaluieren. DeepScholar-bench zieht Abfragen aus aktuellen, hochwertigen ArXiv-Papieren und konzentriert sich auf eine echte Forschungssyntheseaufgabe: die Erstellung der Abschnitte zu verwandter Arbeit in einem Papier durch das Abrufen, Synthetisieren und Zitieren früherer Forschung. Unser Bewertungsframework bewertet die Leistung ganzheitlich in drei Schlüsseldimensionen: Wissenssynthese, Abrufqualität und Überprüfbarkeit. Wir entwickeln auch DeepScholar-base, eine Referenzpipeline, die effizient mit der LOTUS-API implementiert ist. Mit dem DeepScholar-bench-Framework führen wir eine systematische Bewertung früherer Open-Source-Systeme, Such-KIs, OpenAI’s DeepResearch und DeepScholar-base durch. Wir stellen fest, dass DeepScholar-base eine starke Baseline etabliert und eine wettbewerbsfähige oder höhere Leistung als jede andere Methode erreicht. Wir stellen auch fest, dass DeepScholar-bench weit von einer Sättigung entfernt bleibt, da kein System über alle Metriken hinweg eine Punktzahl von 19 % überschreitet. Diese Ergebnisse unterstreichen die Schwierigkeit von DeepScholar-bench sowie seine Bedeutung für den Fortschritt hin zu KI-Systemen, die in der Lage sind, generative Forschungssynthese durchzuführen. Unser Code ist unter https://github.com/guestrin-lab/deepscholar-bench verfügbar.
English
The ability to research and synthesize knowledge is central to human expertise and progress. An emerging class of systems promises these exciting capabilities through generative research synthesis, performing retrieval over the live web and synthesizing discovered sources into long-form, cited summaries. However, evaluating such systems remains an open challenge: existing question-answering benchmarks focus on short-form factual responses, while expert-curated datasets risk staleness and data contamination. Both fail to capture the complexity and evolving nature of real research synthesis tasks. In this work, we introduce DeepScholar-bench, a live benchmark and holistic, automated evaluation framework designed to evaluate generative research synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv papers and focuses on a real research synthesis task: generating the related work sections of a paper by retrieving, synthesizing, and citing prior research. Our evaluation framework holistically assesses performance across three key dimensions, knowledge synthesis, retrieval quality, and verifiability. We also develop DeepScholar-base, a reference pipeline implemented efficiently using the LOTUS API. Using the DeepScholar-bench framework, we perform a systematic evaluation of prior open-source systems, search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that DeepScholar-base establishes a strong baseline, attaining competitive or higher performance than each other method. We also find that DeepScholar-bench remains far from saturated, with no system exceeding a score of 19% across all metrics. These results underscore the difficulty of DeepScholar-bench, as well as its importance for progress towards AI systems capable of generative research synthesis. We make our code available at https://github.com/guestrin-lab/deepscholar-bench.
PDF62August 28, 2025