LiveResearchBench: Un Benchmark en Vivo para la Investigación Profunda Centrada en el Usuario en Entornos Reales
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
October 16, 2025
Autores: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI
Resumen
La investigación profunda —la producción de informes exhaustivos y fundamentados en citas mediante la búsqueda y síntesis de información de cientos de fuentes web en vivo— representa una frontera importante para los sistemas agentes. Para evaluar rigurosamente esta capacidad, cuatro principios son esenciales: las tareas deben ser (1) centradas en el usuario, reflejando necesidades de información realistas, (2) dinámicas, requiriendo información actualizada más allá del conocimiento paramétrico, (3) inequívocas, asegurando una interpretación consistente entre los usuarios, y (4) multifacéticas y de búsqueda intensiva, requiriendo la consulta de numerosas fuentes web y un análisis en profundidad. Los puntos de referencia existentes no cumplen con estos principios, ya que a menudo se centran en dominios estrechos o plantean preguntas ambiguas que dificultan una comparación justa. Guiados por estos principios, presentamos LiveResearchBench, un punto de referencia de 100 tareas curadas por expertos que abarcan la vida cotidiana, el ámbito empresarial y el académico, cada una de las cuales requiere una búsqueda web extensa, dinámica y en tiempo real, así como síntesis. Construido con más de 1,500 horas de trabajo humano, LiveResearchBench proporciona una base rigurosa para la evaluación sistemática. Para evaluar informes extensos fundamentados en citas, presentamos DeepEval, un conjunto integral que cubre tanto la calidad del contenido como del informe, incluyendo cobertura, presentación, precisión y asociación de citas, consistencia y profundidad del análisis. DeepEval integra cuatro protocolos de evaluación complementarios, cada uno diseñado para garantizar una evaluación estable y un alto acuerdo con los juicios humanos. Utilizando LiveResearchBench y DeepEval, llevamos a cabo una evaluación exhaustiva de 17 sistemas de investigación profunda de vanguardia, incluyendo búsqueda web de agente único, investigación profunda de agente único y sistemas multiagente. Nuestro análisis revela las fortalezas actuales, los modos de fallo recurrentes y los componentes clave del sistema necesarios para avanzar hacia una investigación profunda confiable y perspicaz.
English
Deep research -- producing comprehensive, citation-grounded reports by
searching and synthesizing information from hundreds of live web sources --
marks an important frontier for agentic systems. To rigorously evaluate this
ability, four principles are essential: tasks should be (1) user-centric,
reflecting realistic information needs, (2) dynamic, requiring up-to-date
information beyond parametric knowledge, (3) unambiguous, ensuring consistent
interpretation across users, and (4) multi-faceted and search-intensive,
requiring search over numerous web sources and in-depth analysis. Existing
benchmarks fall short of these principles, often focusing on narrow domains or
posing ambiguous questions that hinder fair comparison. Guided by these
principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated
tasks spanning daily life, enterprise, and academia, each requiring extensive,
dynamic, real-time web search and synthesis. Built with over 1,500 hours of
human labor, LiveResearchBench provides a rigorous basis for systematic
evaluation. To evaluate citation-grounded long-form reports, we introduce
DeepEval, a comprehensive suite covering both content- and report-level
quality, including coverage, presentation, citation accuracy and association,
consistency and depth of analysis. DeepEval integrates four complementary
evaluation protocols, each designed to ensure stable assessment and high
agreement with human judgments. Using LiveResearchBench and DeepEval, we
conduct a comprehensive evaluation of 17 frontier deep research systems,
including single-agent web search, single-agent deep research, and multi-agent
systems. Our analysis reveals current strengths, recurring failure modes, and
key system components needed to advance reliable, insightful deep research.