LiveResearchBench: Een Live Benchmark voor Gebruikersgerichte Diepgaande Onderzoek in de Praktijk
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
October 16, 2025
Auteurs: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI
Samenvatting
Diepgaand onderzoek – het produceren van uitgebreide, citatie-gestuurde rapporten door informatie te zoeken en te synthetiseren uit honderden live webbronnen – markeert een belangrijk front voor agent-gebaseerde systemen. Om dit vermogen rigoureus te evalueren, zijn vier principes essentieel: taken moeten (1) gebruikersgericht zijn, realistische informatiebehoeften weerspiegelen, (2) dynamisch zijn, actuele informatie vereisen die verder gaat dan parametrische kennis, (3) eenduidig zijn, zorgen voor consistente interpretatie tussen gebruikers, en (4) veelzijdig en zoekintensief zijn, zoeken over talrijke webbronnen en diepgaande analyse vereisen. Bestaande benchmarks schieten tekort aan deze principes, vaak gericht op smalle domeinen of het stellen van dubbelzinnige vragen die een eerlijke vergelijking belemmeren. Geleid door deze principes introduceren we LiveResearchBench, een benchmark van 100 expert-gecurateerde taken die het dagelijks leven, bedrijfsleven en academie bestrijken, elk vereist uitgebreid, dynamisch, real-time webzoeken en synthese. Gebouwd met meer dan 1.500 uur menselijke arbeid, biedt LiveResearchBench een rigoureuze basis voor systematische evaluatie. Om citatie-gestuurde langere rapporten te evalueren, introduceren we DeepEval, een uitgebreide suite die zowel inhouds- als rapportniveau kwaliteit dekt, inclusief dekking, presentatie, citatie nauwkeurigheid en associatie, consistentie en diepte van analyse. DeepEval integreert vier complementaire evaluatieprotocollen, elk ontworpen om stabiele beoordeling en hoge overeenstemming met menselijke oordelen te waarborgen. Met behulp van LiveResearchBench en DeepEval voeren we een uitgebreide evaluatie uit van 17 frontier diepgaande onderzoekssystemen, waaronder single-agent webzoeken, single-agent diepgaand onderzoek en multi-agent systemen. Onze analyse onthult huidige sterke punten, terugkerende faalmodi en belangrijke systeemcomponenten die nodig zijn om betrouwbaar, inzichtelijk diepgaand onderzoek te bevorderen.
English
Deep research -- producing comprehensive, citation-grounded reports by
searching and synthesizing information from hundreds of live web sources --
marks an important frontier for agentic systems. To rigorously evaluate this
ability, four principles are essential: tasks should be (1) user-centric,
reflecting realistic information needs, (2) dynamic, requiring up-to-date
information beyond parametric knowledge, (3) unambiguous, ensuring consistent
interpretation across users, and (4) multi-faceted and search-intensive,
requiring search over numerous web sources and in-depth analysis. Existing
benchmarks fall short of these principles, often focusing on narrow domains or
posing ambiguous questions that hinder fair comparison. Guided by these
principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated
tasks spanning daily life, enterprise, and academia, each requiring extensive,
dynamic, real-time web search and synthesis. Built with over 1,500 hours of
human labor, LiveResearchBench provides a rigorous basis for systematic
evaluation. To evaluate citation-grounded long-form reports, we introduce
DeepEval, a comprehensive suite covering both content- and report-level
quality, including coverage, presentation, citation accuracy and association,
consistency and depth of analysis. DeepEval integrates four complementary
evaluation protocols, each designed to ensure stable assessment and high
agreement with human judgments. Using LiveResearchBench and DeepEval, we
conduct a comprehensive evaluation of 17 frontier deep research systems,
including single-agent web search, single-agent deep research, and multi-agent
systems. Our analysis reveals current strengths, recurring failure modes, and
key system components needed to advance reliable, insightful deep research.