LiveResearchBench : Un benchmark en temps réel pour la recherche approfondie centrée sur l'utilisateur en conditions réelles
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
October 16, 2025
papers.authors: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI
papers.abstract
La recherche approfondie -- produisant des rapports complets et étayés par des citations en recherchant et en synthétisant des informations provenant de centaines de sources web en direct -- représente une frontière importante pour les systèmes agentiques. Pour évaluer rigoureusement cette capacité, quatre principes sont essentiels : les tâches doivent être (1) centrées sur l'utilisateur, reflétant des besoins d'information réalistes, (2) dynamiques, nécessitant des informations à jour au-delà des connaissances paramétriques, (3) non ambiguës, garantissant une interprétation cohérente entre les utilisateurs, et (4) multidimensionnelles et intensives en recherche, nécessitant une exploration de nombreuses sources web et une analyse approfondie. Les benchmarks existants ne répondent pas à ces principes, se concentrant souvent sur des domaines étroits ou posant des questions ambiguës qui entravent une comparaison équitable. Guidés par ces principes, nous introduisons LiveResearchBench, un benchmark de 100 tâches expertement sélectionnées couvrant la vie quotidienne, l'entreprise et le monde académique, chacune nécessitant une recherche web dynamique, en temps réel et une synthèse approfondie. Construit avec plus de 1 500 heures de travail humain, LiveResearchBench offre une base rigoureuse pour une évaluation systématique. Pour évaluer les rapports détaillés étayés par des citations, nous introduisons DeepEval, une suite complète couvrant à la fois la qualité du contenu et du rapport, incluant la couverture, la présentation, la précision et l'association des citations, ainsi que la cohérence et la profondeur de l'analyse. DeepEval intègre quatre protocoles d'évaluation complémentaires, chacun conçu pour garantir une évaluation stable et un fort accord avec les jugements humains. En utilisant LiveResearchBench et DeepEval, nous menons une évaluation complète de 17 systèmes de recherche approfondie de pointe, incluant des systèmes de recherche web à agent unique, des systèmes de recherche approfondie à agent unique et des systèmes multi-agents. Notre analyse révèle les forces actuelles, les modes d'échec récurrents et les composants clés nécessaires pour faire progresser une recherche approfondie fiable et perspicace.
English
Deep research -- producing comprehensive, citation-grounded reports by
searching and synthesizing information from hundreds of live web sources --
marks an important frontier for agentic systems. To rigorously evaluate this
ability, four principles are essential: tasks should be (1) user-centric,
reflecting realistic information needs, (2) dynamic, requiring up-to-date
information beyond parametric knowledge, (3) unambiguous, ensuring consistent
interpretation across users, and (4) multi-faceted and search-intensive,
requiring search over numerous web sources and in-depth analysis. Existing
benchmarks fall short of these principles, often focusing on narrow domains or
posing ambiguous questions that hinder fair comparison. Guided by these
principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated
tasks spanning daily life, enterprise, and academia, each requiring extensive,
dynamic, real-time web search and synthesis. Built with over 1,500 hours of
human labor, LiveResearchBench provides a rigorous basis for systematic
evaluation. To evaluate citation-grounded long-form reports, we introduce
DeepEval, a comprehensive suite covering both content- and report-level
quality, including coverage, presentation, citation accuracy and association,
consistency and depth of analysis. DeepEval integrates four complementary
evaluation protocols, each designed to ensure stable assessment and high
agreement with human judgments. Using LiveResearchBench and DeepEval, we
conduct a comprehensive evaluation of 17 frontier deep research systems,
including single-agent web search, single-agent deep research, and multi-agent
systems. Our analysis reveals current strengths, recurring failure modes, and
key system components needed to advance reliable, insightful deep research.