ChatPaper.aiChatPaper

DeepScholar-Bench : Un Benchmark en Temps Réel et une Évaluation Automatisée pour la Synthèse de Recherche Générative

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

August 27, 2025
papers.authors: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI

papers.abstract

La capacité à rechercher et à synthétiser des connaissances est au cœur de l’expertise humaine et du progrès. Une nouvelle classe de systèmes promet ces capacités passionnantes grâce à la synthèse générative de recherche, en effectuant des recherches sur le web en temps réel et en synthétisant les sources découvertes en résumés détaillés et cités. Cependant, l’évaluation de tels systèmes reste un défi ouvert : les benchmarks existants de questions-réponses se concentrent sur des réponses factuelles courtes, tandis que les ensembles de données expertes risquent d’être obsolètes ou contaminés. Les deux échouent à capturer la complexité et l’évolution des tâches réelles de synthèse de recherche. Dans ce travail, nous présentons DeepScholar-bench, un benchmark en temps réel et un cadre d’évaluation holistique et automatisé conçu pour évaluer la synthèse générative de recherche. DeepScholar-bench tire ses requêtes de récents articles de haute qualité sur ArXiv et se concentre sur une tâche réelle de synthèse de recherche : générer les sections de travaux connexes d’un article en récupérant, synthétisant et citant les recherches antérieures. Notre cadre d’évaluation évalue de manière holistique la performance selon trois dimensions clés : la synthèse des connaissances, la qualité de la récupération et la vérifiabilité. Nous développons également DeepScholar-base, un pipeline de référence implémenté efficacement à l’aide de l’API LOTUS. En utilisant le cadre DeepScholar-bench, nous effectuons une évaluation systématique des systèmes open-source antérieurs, des IA de recherche, de DeepResearch d’OpenAI et de DeepScholar-base. Nous constatons que DeepScholar-base établit une base solide, atteignant une performance compétitive ou supérieure à chaque autre méthode. Nous constatons également que DeepScholar-bench est loin d’être saturé, aucun système ne dépassant un score de 19 % sur tous les indicateurs. Ces résultats soulignent la difficulté de DeepScholar-bench, ainsi que son importance pour progresser vers des systèmes d’IA capables de synthèse générative de recherche. Nous mettons notre code à disposition à l’adresse https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human expertise and progress. An emerging class of systems promises these exciting capabilities through generative research synthesis, performing retrieval over the live web and synthesizing discovered sources into long-form, cited summaries. However, evaluating such systems remains an open challenge: existing question-answering benchmarks focus on short-form factual responses, while expert-curated datasets risk staleness and data contamination. Both fail to capture the complexity and evolving nature of real research synthesis tasks. In this work, we introduce DeepScholar-bench, a live benchmark and holistic, automated evaluation framework designed to evaluate generative research synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv papers and focuses on a real research synthesis task: generating the related work sections of a paper by retrieving, synthesizing, and citing prior research. Our evaluation framework holistically assesses performance across three key dimensions, knowledge synthesis, retrieval quality, and verifiability. We also develop DeepScholar-base, a reference pipeline implemented efficiently using the LOTUS API. Using the DeepScholar-bench framework, we perform a systematic evaluation of prior open-source systems, search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that DeepScholar-base establishes a strong baseline, attaining competitive or higher performance than each other method. We also find that DeepScholar-bench remains far from saturated, with no system exceeding a score of 19% across all metrics. These results underscore the difficulty of DeepScholar-bench, as well as its importance for progress towards AI systems capable of generative research synthesis. We make our code available at https://github.com/guestrin-lab/deepscholar-bench.
PDF62August 28, 2025