DeepScholar-Bench: Um Benchmark em Tempo Real e Avaliação Automatizada para Síntese de Pesquisa Generativa
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
August 27, 2025
Autores: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI
Resumo
A capacidade de pesquisar e sintetizar conhecimento é central para a expertise humana e o progresso. Uma nova classe de sistemas promete essas capacidades empolgantes por meio da síntese generativa de pesquisa, realizando buscas na web em tempo real e sintetizando as fontes descobertas em resumos longos e citados. No entanto, avaliar tais sistemas continua sendo um desafio em aberto: os benchmarks existentes de questionamento e resposta focam em respostas factuais curtas, enquanto conjuntos de dados curados por especialistas correm o risco de se tornarem desatualizados e contaminados. Ambos falham em capturar a complexidade e a natureza evolutiva das tarefas reais de síntese de pesquisa. Neste trabalho, introduzimos o DeepScholar-bench, um benchmark em tempo real e um framework de avaliação holístico e automatizado projetado para avaliar a síntese generativa de pesquisa. O DeepScholar-bench extrai consultas de artigos recentes e de alta qualidade do ArXiv e se concentra em uma tarefa real de síntese de pesquisa: gerar as seções de trabalhos relacionados de um artigo, recuperando, sintetizando e citando pesquisas anteriores. Nosso framework de avaliação avalia holisticamente o desempenho em três dimensões principais: síntese de conhecimento, qualidade de recuperação e verificabilidade. Também desenvolvemos o DeepScholar-base, um pipeline de referência implementado de forma eficiente usando a API LOTUS. Utilizando o framework DeepScholar-bench, realizamos uma avaliação sistemática de sistemas de código aberto anteriores, AIs de busca, DeepResearch da OpenAI e DeepScholar-base. Descobrimos que o DeepScholar-base estabelece uma linha de base sólida, alcançando desempenho competitivo ou superior a cada um dos outros métodos. Também constatamos que o DeepScholar-bench está longe de estar saturado, com nenhum sistema excedendo uma pontuação de 19% em todas as métricas. Esses resultados destacam a dificuldade do DeepScholar-bench, bem como sua importância para o progresso em direção a sistemas de IA capazes de realizar síntese generativa de pesquisa. Disponibilizamos nosso código em https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human
expertise and progress. An emerging class of systems promises these exciting
capabilities through generative research synthesis, performing retrieval over
the live web and synthesizing discovered sources into long-form, cited
summaries. However, evaluating such systems remains an open challenge: existing
question-answering benchmarks focus on short-form factual responses, while
expert-curated datasets risk staleness and data contamination. Both fail to
capture the complexity and evolving nature of real research synthesis tasks. In
this work, we introduce DeepScholar-bench, a live benchmark and holistic,
automated evaluation framework designed to evaluate generative research
synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv
papers and focuses on a real research synthesis task: generating the related
work sections of a paper by retrieving, synthesizing, and citing prior
research. Our evaluation framework holistically assesses performance across
three key dimensions, knowledge synthesis, retrieval quality, and
verifiability. We also develop DeepScholar-base, a reference pipeline
implemented efficiently using the LOTUS API. Using the DeepScholar-bench
framework, we perform a systematic evaluation of prior open-source systems,
search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that
DeepScholar-base establishes a strong baseline, attaining competitive or higher
performance than each other method. We also find that DeepScholar-bench remains
far from saturated, with no system exceeding a score of 19% across all
metrics. These results underscore the difficulty of DeepScholar-bench, as well
as its importance for progress towards AI systems capable of generative
research synthesis. We make our code available at
https://github.com/guestrin-lab/deepscholar-bench.