ChatPaper.aiChatPaper

LiveResearchBench: Ein Live-Benchmark für nutzerzentrierte tiefgehende Forschung in realen Umgebungen

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

October 16, 2025
papers.authors: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI

papers.abstract

Tiefgehende Recherche – die Erstellung umfassender, zitiergestützter Berichte durch die Suche und Synthese von Informationen aus Hunderten von Live-Webquellen – stellt eine wichtige Grenze für agentenbasierte Systeme dar. Um diese Fähigkeit rigoros zu bewerten, sind vier Prinzipien entscheidend: Aufgaben sollten (1) nutzerzentriert sein und realistische Informationsbedürfnisse widerspiegeln, (2) dynamisch sein und aktuelle Informationen über parametrisches Wissen hinaus erfordern, (3) eindeutig sein, um eine konsistente Interpretation über verschiedene Nutzer hinweg sicherzustellen, und (4) vielschichtig und suchintensiv sein, was eine Suche über zahlreiche Webquellen und eine tiefgehende Analyse erfordert. Bestehende Benchmarks erfüllen diese Prinzipien nicht, da sie sich oft auf enge Domänen konzentrieren oder mehrdeutige Fragen stellen, die einen fairen Vergleich behindern. Angeleitet von diesen Prinzipien führen wir LiveResearchBench ein, einen Benchmark mit 100 von Experten kuratierten Aufgaben, die den Alltag, Unternehmen und die Wissenschaft abdecken und jeweils umfangreiche, dynamische, Echtzeit-Webrecherche und Synthese erfordern. Mit über 1.500 Stunden menschlicher Arbeit erstellt, bietet LiveResearchBench eine rigorose Grundlage für systematische Bewertungen. Um zitiergestützte Langformberichte zu bewerten, führen wir DeepEval ein, eine umfassende Suite, die sowohl die Inhalts- als auch die Berichtsebene abdeckt, einschließlich Abdeckung, Präsentation, Zitiergenauigkeit und -zuordnung, Konsistenz und Tiefe der Analyse. DeepEval integriert vier komplementäre Bewertungsprotokolle, die jeweils darauf ausgelegt sind, eine stabile Bewertung und hohe Übereinstimmung mit menschlichen Urteilen sicherzustellen. Mit LiveResearchBench und DeepEval führen wir eine umfassende Bewertung von 17 fortschrittlichen Systemen zur tiefgehenden Recherche durch, darunter Einzelagenten-Websuche, Einzelagenten-Tiefrecherche und Multiagentensysteme. Unsere Analyse zeigt aktuelle Stärken, wiederkehrende Fehlermuster und wichtige Systemkomponenten auf, die benötigt werden, um zuverlässige und aufschlussreiche tiefgehende Recherche voranzutreiben.
English
Deep research -- producing comprehensive, citation-grounded reports by searching and synthesizing information from hundreds of live web sources -- marks an important frontier for agentic systems. To rigorously evaluate this ability, four principles are essential: tasks should be (1) user-centric, reflecting realistic information needs, (2) dynamic, requiring up-to-date information beyond parametric knowledge, (3) unambiguous, ensuring consistent interpretation across users, and (4) multi-faceted and search-intensive, requiring search over numerous web sources and in-depth analysis. Existing benchmarks fall short of these principles, often focusing on narrow domains or posing ambiguous questions that hinder fair comparison. Guided by these principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated tasks spanning daily life, enterprise, and academia, each requiring extensive, dynamic, real-time web search and synthesis. Built with over 1,500 hours of human labor, LiveResearchBench provides a rigorous basis for systematic evaluation. To evaluate citation-grounded long-form reports, we introduce DeepEval, a comprehensive suite covering both content- and report-level quality, including coverage, presentation, citation accuracy and association, consistency and depth of analysis. DeepEval integrates four complementary evaluation protocols, each designed to ensure stable assessment and high agreement with human judgments. Using LiveResearchBench and DeepEval, we conduct a comprehensive evaluation of 17 frontier deep research systems, including single-agent web search, single-agent deep research, and multi-agent systems. Our analysis reveals current strengths, recurring failure modes, and key system components needed to advance reliable, insightful deep research.
PDF112October 17, 2025