DeepScholar-Bench: Un punto de referencia en vivo y evaluación automatizada para la síntesis generativa de investigación.
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
August 27, 2025
Autores: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI
Resumen
La capacidad de investigar y sintetizar conocimiento es fundamental para la experiencia humana y el progreso. Una nueva clase de sistemas promete estas emocionantes capacidades a través de la síntesis generativa de investigación, realizando búsquedas en la web en vivo y sintetizando las fuentes descubiertas en resúmenes extensos y citados. Sin embargo, evaluar dichos sistemas sigue siendo un desafío abierto: los benchmarks existentes de preguntas y respuestas se centran en respuestas factuales breves, mientras que los conjuntos de datos curados por expertos corren el riesgo de quedarse obsoletos o de sufrir contaminación de datos. Ambos enfoques no logran capturar la complejidad y la naturaleza evolutiva de las tareas reales de síntesis de investigación. En este trabajo, presentamos DeepScholar-bench, un benchmark en vivo y un marco de evaluación holístico y automatizado diseñado para evaluar la síntesis generativa de investigación. DeepScholar-bench extrae consultas de artículos recientes y de alta calidad de ArXiv y se centra en una tarea real de síntesis de investigación: generar las secciones de trabajos relacionados de un artículo mediante la recuperación, síntesis y citación de investigaciones previas. Nuestro marco de evaluación evalúa holísticamente el rendimiento en tres dimensiones clave: síntesis de conocimiento, calidad de recuperación y verificabilidad. También desarrollamos DeepScholar-base, una canalización de referencia implementada de manera eficiente utilizando la API de LOTUS. Utilizando el marco de DeepScholar-bench, realizamos una evaluación sistemática de sistemas de código abierto previos, los sistemas de búsqueda de IA, DeepResearch de OpenAI y DeepScholar-base. Encontramos que DeepScholar-base establece una línea base sólida, alcanzando un rendimiento competitivo o superior al de cada uno de los otros métodos. También encontramos que DeepScholar-bench está lejos de estar saturado, ya que ningún sistema supera una puntuación del 19% en todas las métricas. Estos resultados subrayan la dificultad de DeepScholar-bench, así como su importancia para avanzar hacia sistemas de IA capaces de realizar síntesis generativa de investigación. Hacemos nuestro código disponible en https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human
expertise and progress. An emerging class of systems promises these exciting
capabilities through generative research synthesis, performing retrieval over
the live web and synthesizing discovered sources into long-form, cited
summaries. However, evaluating such systems remains an open challenge: existing
question-answering benchmarks focus on short-form factual responses, while
expert-curated datasets risk staleness and data contamination. Both fail to
capture the complexity and evolving nature of real research synthesis tasks. In
this work, we introduce DeepScholar-bench, a live benchmark and holistic,
automated evaluation framework designed to evaluate generative research
synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv
papers and focuses on a real research synthesis task: generating the related
work sections of a paper by retrieving, synthesizing, and citing prior
research. Our evaluation framework holistically assesses performance across
three key dimensions, knowledge synthesis, retrieval quality, and
verifiability. We also develop DeepScholar-base, a reference pipeline
implemented efficiently using the LOTUS API. Using the DeepScholar-bench
framework, we perform a systematic evaluation of prior open-source systems,
search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that
DeepScholar-base establishes a strong baseline, attaining competitive or higher
performance than each other method. We also find that DeepScholar-bench remains
far from saturated, with no system exceeding a score of 19% across all
metrics. These results underscore the difficulty of DeepScholar-bench, as well
as its importance for progress towards AI systems capable of generative
research synthesis. We make our code available at
https://github.com/guestrin-lab/deepscholar-bench.