ChatPaper.aiChatPaper

DeepScholar-Bench: Um Benchmark em Tempo Real e Avaliação Automatizada para Síntese de Pesquisa Generativa

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

August 27, 2025
Autores: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI

Resumo

A capacidade de pesquisar e sintetizar conhecimento é central para a expertise humana e o progresso. Uma nova classe de sistemas promete essas capacidades empolgantes por meio da síntese generativa de pesquisa, realizando buscas na web em tempo real e sintetizando as fontes descobertas em resumos longos e citados. No entanto, avaliar tais sistemas continua sendo um desafio em aberto: os benchmarks existentes de questionamento e resposta focam em respostas factuais curtas, enquanto conjuntos de dados curados por especialistas correm o risco de se tornarem desatualizados e contaminados. Ambos falham em capturar a complexidade e a natureza evolutiva das tarefas reais de síntese de pesquisa. Neste trabalho, introduzimos o DeepScholar-bench, um benchmark em tempo real e um framework de avaliação holístico e automatizado projetado para avaliar a síntese generativa de pesquisa. O DeepScholar-bench extrai consultas de artigos recentes e de alta qualidade do ArXiv e se concentra em uma tarefa real de síntese de pesquisa: gerar as seções de trabalhos relacionados de um artigo, recuperando, sintetizando e citando pesquisas anteriores. Nosso framework de avaliação avalia holisticamente o desempenho em três dimensões principais: síntese de conhecimento, qualidade de recuperação e verificabilidade. Também desenvolvemos o DeepScholar-base, um pipeline de referência implementado de forma eficiente usando a API LOTUS. Utilizando o framework DeepScholar-bench, realizamos uma avaliação sistemática de sistemas de código aberto anteriores, AIs de busca, DeepResearch da OpenAI e DeepScholar-base. Descobrimos que o DeepScholar-base estabelece uma linha de base sólida, alcançando desempenho competitivo ou superior a cada um dos outros métodos. Também constatamos que o DeepScholar-bench está longe de estar saturado, com nenhum sistema excedendo uma pontuação de 19% em todas as métricas. Esses resultados destacam a dificuldade do DeepScholar-bench, bem como sua importância para o progresso em direção a sistemas de IA capazes de realizar síntese generativa de pesquisa. Disponibilizamos nosso código em https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human expertise and progress. An emerging class of systems promises these exciting capabilities through generative research synthesis, performing retrieval over the live web and synthesizing discovered sources into long-form, cited summaries. However, evaluating such systems remains an open challenge: existing question-answering benchmarks focus on short-form factual responses, while expert-curated datasets risk staleness and data contamination. Both fail to capture the complexity and evolving nature of real research synthesis tasks. In this work, we introduce DeepScholar-bench, a live benchmark and holistic, automated evaluation framework designed to evaluate generative research synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv papers and focuses on a real research synthesis task: generating the related work sections of a paper by retrieving, synthesizing, and citing prior research. Our evaluation framework holistically assesses performance across three key dimensions, knowledge synthesis, retrieval quality, and verifiability. We also develop DeepScholar-base, a reference pipeline implemented efficiently using the LOTUS API. Using the DeepScholar-bench framework, we perform a systematic evaluation of prior open-source systems, search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that DeepScholar-base establishes a strong baseline, attaining competitive or higher performance than each other method. We also find that DeepScholar-bench remains far from saturated, with no system exceeding a score of 19% across all metrics. These results underscore the difficulty of DeepScholar-bench, as well as its importance for progress towards AI systems capable of generative research synthesis. We make our code available at https://github.com/guestrin-lab/deepscholar-bench.
PDF82August 28, 2025