LiveResearchBench: Un Benchmark in Tempo Reale per la Ricerca Profonda Centrata sull'Utente in Contesti Reali
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
October 16, 2025
Autori: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI
Abstract
La ricerca approfondita -- produrre report completi e basati su citazioni attraverso la ricerca e la sintesi di informazioni provenienti da centinaia di fonti web in tempo reale -- rappresenta una frontiera importante per i sistemi agentivi. Per valutare rigorosamente questa capacità, quattro principi sono essenziali: i compiti dovrebbero essere (1) centrati sull'utente, riflettendo esigenze informative realistiche, (2) dinamici, richiedendo informazioni aggiornate oltre la conoscenza parametrica, (3) inequivocabili, garantendo un'interpretazione coerente tra gli utenti, e (4) multifaccettati e intensivi nella ricerca, richiedendo la consultazione di numerose fonti web e un'analisi approfondita. Gli attuali benchmark non soddisfano questi principi, spesso concentrandosi su domini ristretti o ponendo domande ambigue che ostacolano un confronto equo. Guidati da questi principi, introduciamo LiveResearchBench, un benchmark di 100 compiti curati da esperti che spaziano dalla vita quotidiana all'impresa e all'accademia, ciascuno dei quali richiede un'ampia ricerca web dinamica in tempo reale e una sintesi. Costruito con oltre 1.500 ore di lavoro umano, LiveResearchBench fornisce una base rigorosa per una valutazione sistematica. Per valutare report lunghi basati su citazioni, introduciamo DeepEval, una suite completa che copre sia la qualità del contenuto che del report, inclusi copertura, presentazione, accuratezza e associazione delle citazioni, coerenza e profondità dell'analisi. DeepEval integra quattro protocolli di valutazione complementari, ciascuno progettato per garantire una valutazione stabile e un elevato accordo con i giudizi umani. Utilizzando LiveResearchBench e DeepEval, conduciamo una valutazione completa di 17 sistemi all'avanguardia per la ricerca approfondita, inclusi sistemi di ricerca web a singolo agente, sistemi di ricerca approfondita a singolo agente e sistemi multi-agente. La nostra analisi rivela i punti di forza attuali, le modalità di fallimento ricorrenti e i componenti chiave del sistema necessari per progredire verso una ricerca approfondita affidabile e perspicace.
English
Deep research -- producing comprehensive, citation-grounded reports by
searching and synthesizing information from hundreds of live web sources --
marks an important frontier for agentic systems. To rigorously evaluate this
ability, four principles are essential: tasks should be (1) user-centric,
reflecting realistic information needs, (2) dynamic, requiring up-to-date
information beyond parametric knowledge, (3) unambiguous, ensuring consistent
interpretation across users, and (4) multi-faceted and search-intensive,
requiring search over numerous web sources and in-depth analysis. Existing
benchmarks fall short of these principles, often focusing on narrow domains or
posing ambiguous questions that hinder fair comparison. Guided by these
principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated
tasks spanning daily life, enterprise, and academia, each requiring extensive,
dynamic, real-time web search and synthesis. Built with over 1,500 hours of
human labor, LiveResearchBench provides a rigorous basis for systematic
evaluation. To evaluate citation-grounded long-form reports, we introduce
DeepEval, a comprehensive suite covering both content- and report-level
quality, including coverage, presentation, citation accuracy and association,
consistency and depth of analysis. DeepEval integrates four complementary
evaluation protocols, each designed to ensure stable assessment and high
agreement with human judgments. Using LiveResearchBench and DeepEval, we
conduct a comprehensive evaluation of 17 frontier deep research systems,
including single-agent web search, single-agent deep research, and multi-agent
systems. Our analysis reveals current strengths, recurring failure modes, and
key system components needed to advance reliable, insightful deep research.