DeepScholar-Bench: Живой бенчмарк и автоматизированная оценка для генеративного синтеза исследований
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
August 27, 2025
Авторы: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI
Аннотация
Способность исследовать и синтезировать знания является ключевой для человеческого мастерства и прогресса. Новый класс систем обещает реализовать эти захватывающие возможности через генеративный синтез исследований, выполняя поиск в реальном времени в интернете и объединяя найденные источники в длинные, цитируемые обзоры. Однако оценка таких систем остается открытой проблемой: существующие тесты для вопросно-ответных систем сосредоточены на кратких фактологических ответах, в то время как экспертно-курируемые наборы данных рискуют устареть и подвергнуться загрязнению данных. Оба подхода не учитывают сложность и изменчивый характер реальных задач синтеза исследований. В данной работе мы представляем DeepScholar-bench — живой тест и целостную автоматизированную систему оценки, предназначенную для оценки генеративного синтеза исследований. DeepScholar-bench берет запросы из недавних высококачественных статей на ArXiv и фокусируется на реальной задаче синтеза исследований: создании разделов "Связанные работы" статьи путем поиска, синтеза и цитирования предыдущих исследований. Наша система оценки целостно оценивает производительность по трем ключевым направлениям: синтез знаний, качество поиска и проверяемость. Мы также разрабатываем DeepScholar-base — эталонный конвейер, эффективно реализованный с использованием API LOTUS. Используя систему DeepScholar-bench, мы проводим систематическую оценку предыдущих открытых систем, поисковых ИИ, OpenAI DeepResearch и DeepScholar-base. Мы обнаруживаем, что DeepScholar-base устанавливает сильный базовый уровень, достигая конкурентоспособной или более высокой производительности, чем каждый из других методов. Мы также обнаруживаем, что DeepScholar-bench далек от насыщения, ни одна система не превышает 19% по всем метрикам. Эти результаты подчеркивают сложность DeepScholar-bench, а также его важность для прогресса в направлении ИИ-систем, способных к генеративному синтезу исследований. Мы делаем наш код доступным по адресу https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human
expertise and progress. An emerging class of systems promises these exciting
capabilities through generative research synthesis, performing retrieval over
the live web and synthesizing discovered sources into long-form, cited
summaries. However, evaluating such systems remains an open challenge: existing
question-answering benchmarks focus on short-form factual responses, while
expert-curated datasets risk staleness and data contamination. Both fail to
capture the complexity and evolving nature of real research synthesis tasks. In
this work, we introduce DeepScholar-bench, a live benchmark and holistic,
automated evaluation framework designed to evaluate generative research
synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv
papers and focuses on a real research synthesis task: generating the related
work sections of a paper by retrieving, synthesizing, and citing prior
research. Our evaluation framework holistically assesses performance across
three key dimensions, knowledge synthesis, retrieval quality, and
verifiability. We also develop DeepScholar-base, a reference pipeline
implemented efficiently using the LOTUS API. Using the DeepScholar-bench
framework, we perform a systematic evaluation of prior open-source systems,
search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that
DeepScholar-base establishes a strong baseline, attaining competitive or higher
performance than each other method. We also find that DeepScholar-bench remains
far from saturated, with no system exceeding a score of 19% across all
metrics. These results underscore the difficulty of DeepScholar-bench, as well
as its importance for progress towards AI systems capable of generative
research synthesis. We make our code available at
https://github.com/guestrin-lab/deepscholar-bench.