DeepScholar-Bench: Un Benchmark in Tempo Reale e Valutazione Automatica per la Sintesi Generativa della Ricerca
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
August 27, 2025
Autori: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI
Abstract
La capacità di ricercare e sintetizzare conoscenze è centrale per l'esperienza umana e il progresso. Una nuova classe di sistemi promette queste entusiasmanti capacità attraverso la sintesi generativa della ricerca, eseguendo il recupero sul web in tempo reale e sintetizzando le fonti scoperte in riassunti lunghi e citati. Tuttavia, valutare tali sistemi rimane una sfida aperta: i benchmark esistenti per il question-answering si concentrano su risposte fattuali brevi, mentre i dataset curati da esperti rischiano di diventare obsoleti e di essere contaminati dai dati. Entrambi non riescono a catturare la complessità e la natura evolutiva delle reali attività di sintesi della ricerca. In questo lavoro, introduciamo DeepScholar-bench, un benchmark in tempo reale e un framework di valutazione olistico e automatizzato progettato per valutare la sintesi generativa della ricerca. DeepScholar-bench estrae query da articoli recenti e di alta qualità su ArXiv e si concentra su un compito reale di sintesi della ricerca: generare le sezioni relative ai lavori correlati di un articolo recuperando, sintetizzando e citando ricerche precedenti. Il nostro framework di valutazione valuta in modo olistico le prestazioni su tre dimensioni chiave: sintesi della conoscenza, qualità del recupero e verificabilità. Sviluppiamo anche DeepScholar-base, una pipeline di riferimento implementata in modo efficiente utilizzando l'API LOTUS. Utilizzando il framework DeepScholar-bench, eseguiamo una valutazione sistematica di precedenti sistemi open-source, AI di ricerca, DeepResearch di OpenAI e DeepScholar-base. Troviamo che DeepScholar-base stabilisce una solida baseline, raggiungendo prestazioni competitive o superiori rispetto a ciascun altro metodo. Troviamo inoltre che DeepScholar-bench è ancora lontano dalla saturazione, con nessun sistema che supera un punteggio del 19% su tutte le metriche. Questi risultati sottolineano la difficoltà di DeepScholar-bench, nonché la sua importanza per il progresso verso sistemi di AI capaci di sintesi generativa della ricerca. Rendiamo disponibile il nostro codice su https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human
expertise and progress. An emerging class of systems promises these exciting
capabilities through generative research synthesis, performing retrieval over
the live web and synthesizing discovered sources into long-form, cited
summaries. However, evaluating such systems remains an open challenge: existing
question-answering benchmarks focus on short-form factual responses, while
expert-curated datasets risk staleness and data contamination. Both fail to
capture the complexity and evolving nature of real research synthesis tasks. In
this work, we introduce DeepScholar-bench, a live benchmark and holistic,
automated evaluation framework designed to evaluate generative research
synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv
papers and focuses on a real research synthesis task: generating the related
work sections of a paper by retrieving, synthesizing, and citing prior
research. Our evaluation framework holistically assesses performance across
three key dimensions, knowledge synthesis, retrieval quality, and
verifiability. We also develop DeepScholar-base, a reference pipeline
implemented efficiently using the LOTUS API. Using the DeepScholar-bench
framework, we perform a systematic evaluation of prior open-source systems,
search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that
DeepScholar-base establishes a strong baseline, attaining competitive or higher
performance than each other method. We also find that DeepScholar-bench remains
far from saturated, with no system exceeding a score of 19% across all
metrics. These results underscore the difficulty of DeepScholar-bench, as well
as its importance for progress towards AI systems capable of generative
research synthesis. We make our code available at
https://github.com/guestrin-lab/deepscholar-bench.