ChatPaper.aiChatPaper

DeepScholar-Bench: Un punto de referencia en vivo y evaluación automatizada para la síntesis generativa de investigación.

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

August 27, 2025
Autores: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin
cs.AI

Resumen

La capacidad de investigar y sintetizar conocimiento es fundamental para la experiencia humana y el progreso. Una nueva clase de sistemas promete estas emocionantes capacidades a través de la síntesis generativa de investigación, realizando búsquedas en la web en vivo y sintetizando las fuentes descubiertas en resúmenes extensos y citados. Sin embargo, evaluar dichos sistemas sigue siendo un desafío abierto: los benchmarks existentes de preguntas y respuestas se centran en respuestas factuales breves, mientras que los conjuntos de datos curados por expertos corren el riesgo de quedarse obsoletos o de sufrir contaminación de datos. Ambos enfoques no logran capturar la complejidad y la naturaleza evolutiva de las tareas reales de síntesis de investigación. En este trabajo, presentamos DeepScholar-bench, un benchmark en vivo y un marco de evaluación holístico y automatizado diseñado para evaluar la síntesis generativa de investigación. DeepScholar-bench extrae consultas de artículos recientes y de alta calidad de ArXiv y se centra en una tarea real de síntesis de investigación: generar las secciones de trabajos relacionados de un artículo mediante la recuperación, síntesis y citación de investigaciones previas. Nuestro marco de evaluación evalúa holísticamente el rendimiento en tres dimensiones clave: síntesis de conocimiento, calidad de recuperación y verificabilidad. También desarrollamos DeepScholar-base, una canalización de referencia implementada de manera eficiente utilizando la API de LOTUS. Utilizando el marco de DeepScholar-bench, realizamos una evaluación sistemática de sistemas de código abierto previos, los sistemas de búsqueda de IA, DeepResearch de OpenAI y DeepScholar-base. Encontramos que DeepScholar-base establece una línea base sólida, alcanzando un rendimiento competitivo o superior al de cada uno de los otros métodos. También encontramos que DeepScholar-bench está lejos de estar saturado, ya que ningún sistema supera una puntuación del 19% en todas las métricas. Estos resultados subrayan la dificultad de DeepScholar-bench, así como su importancia para avanzar hacia sistemas de IA capaces de realizar síntesis generativa de investigación. Hacemos nuestro código disponible en https://github.com/guestrin-lab/deepscholar-bench.
English
The ability to research and synthesize knowledge is central to human expertise and progress. An emerging class of systems promises these exciting capabilities through generative research synthesis, performing retrieval over the live web and synthesizing discovered sources into long-form, cited summaries. However, evaluating such systems remains an open challenge: existing question-answering benchmarks focus on short-form factual responses, while expert-curated datasets risk staleness and data contamination. Both fail to capture the complexity and evolving nature of real research synthesis tasks. In this work, we introduce DeepScholar-bench, a live benchmark and holistic, automated evaluation framework designed to evaluate generative research synthesis. DeepScholar-bench draws queries from recent, high-quality ArXiv papers and focuses on a real research synthesis task: generating the related work sections of a paper by retrieving, synthesizing, and citing prior research. Our evaluation framework holistically assesses performance across three key dimensions, knowledge synthesis, retrieval quality, and verifiability. We also develop DeepScholar-base, a reference pipeline implemented efficiently using the LOTUS API. Using the DeepScholar-bench framework, we perform a systematic evaluation of prior open-source systems, search AI's, OpenAI's DeepResearch, and DeepScholar-base. We find that DeepScholar-base establishes a strong baseline, attaining competitive or higher performance than each other method. We also find that DeepScholar-bench remains far from saturated, with no system exceeding a score of 19% across all metrics. These results underscore the difficulty of DeepScholar-bench, as well as its importance for progress towards AI systems capable of generative research synthesis. We make our code available at https://github.com/guestrin-lab/deepscholar-bench.
PDF62August 28, 2025