DeepScholar-Bench: Een Live Benchmark en Geautomatiseerde Evaluatie voor Generatieve Onderzoekssynthese
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
August 27, 2025
Auteurs: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI
Samenvatting
Het vermogen om kennis te onderzoeken en te synthetiseren is essentieel voor menselijke expertise en vooruitgang. Een opkomende klasse van systemen belooft deze opwindende mogelijkheden door middel van generatieve onderzoeksynthese, waarbij ze zoekopdrachten uitvoeren over het live web en ontdekte bronnen synthetiseren tot uitgebreide, geciteerde samenvattingen. Het evalueren van dergelijke systemen blijft echter een uitdaging: bestaande benchmarks voor vraag-antwoordtaken richten zich op korte, feitelijke antwoorden, terwijl door experts samengestelde datasets het risico lopen verouderd te zijn en vervuild met data. Beide vangen de complexiteit en de evoluerende aard van echte onderzoeksynthesetaken niet goed. In dit werk introduceren we DeepScholar-bench, een live benchmark en een holistisch, geautomatiseerd evaluatieraamwerk dat is ontworpen om generatieve onderzoeksynthese te evalueren. DeepScholar-bench haalt zoekopdrachten uit recente, hoogwaardige ArXiv-artikelen en richt zich op een echte onderzoeksynthesetaak: het genereren van de gerelateerde werk-secties van een artikel door eerder onderzoek op te halen, te synthetiseren en te citeren. Ons evaluatieraamwerk beoordeelt de prestaties holistisch over drie belangrijke dimensies: kennissynthese, ophaalkwaliteit en verifieerbaarheid. We ontwikkelen ook DeepScholar-base, een referentiepijplijn die efficiënt is geïmplementeerd met behulp van de LOTUS API. Met behulp van het DeepScholar-bench raamwerk voeren we een systematische evaluatie uit van eerdere open-source systemen, Search AI's, OpenAI's DeepResearch en DeepScholar-base. We constateren dat DeepScholar-base een sterke basislijn vormt, waarbij het concurrerende of betere prestaties behaalt dan elke andere methode. We constateren ook dat DeepScholar-bench ver van verzadigd is, waarbij geen enkel systeem een score van 19% over alle metrieken overschrijdt. Deze resultaten onderstrepen de moeilijkheidsgraad van DeepScholar-bench, evenals het belang ervan voor de vooruitgang naar AI-systemen die in staat zijn tot generatieve onderzoeksynthese. We maken onze code beschikbaar op https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human
expertise and progress. An emerging class of systems promises these exciting
capabilities through generative research synthesis, performing retrieval over
the live web and synthesizing discovered sources into long-form, cited
summaries. However, evaluating such systems remains an open challenge: existing
question-answering benchmarks focus on short-form factual responses, while
expert-curated datasets risk staleness and data contamination. Both fail to
capture the complexity and evolving nature of real research synthesis tasks. In
this work, we introduce DeepScholar-bench, a live benchmark and holistic,
automated evaluation framework designed to evaluate generative research
synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv
papers and focuses on a real research synthesis task: generating the related
work sections of a paper by retrieving, synthesizing, and citing prior
research. Our evaluation framework holistically assesses performance across
three key dimensions, knowledge synthesis, retrieval quality, and
verifiability. We also develop DeepScholar-base, a reference pipeline
implemented efficiently using the LOTUS API. Using the DeepScholar-bench
framework, we perform a systematic evaluation of prior open-source systems,
search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that
DeepScholar-base establishes a strong baseline, attaining competitive or higher
performance than each other method. We also find that DeepScholar-bench remains
far from saturated, with no system exceeding a score of 19% across all
metrics. These results underscore the difficulty of DeepScholar-bench, as well
as its importance for progress towards AI systems capable of generative
research synthesis. We make our code available at
https://github.com/guestrin-lab/deepscholar-bench.