LiveResearchBench: Живой бенчмарк для ориентированных на пользователя углубленных исследований в реальных условиях
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
October 16, 2025
Авторы: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI
Аннотация
Глубокое исследование — создание всесторонних, основанных на цитатах отчетов путем поиска и синтеза информации из сотен актуальных веб-источников — представляет собой важный рубеж для агентных систем. Для строгой оценки этой способности необходимы четыре принципа: задачи должны быть (1) ориентированными на пользователя, отражая реалистичные информационные потребности, (2) динамичными, требуя актуальной информации, выходящей за пределы параметрических знаний, (3) однозначными, обеспечивая согласованную интерпретацию среди пользователей, и (4) многогранными и интенсивными по поиску, требуя анализа множества веб-источников и глубокого анализа. Существующие эталонные тесты не соответствуют этим принципам, часто сосредотачиваясь на узких областях или предлагая неоднозначные вопросы, что затрудняет справедливое сравнение. Руководствуясь этими принципами, мы представляем LiveResearchBench — эталонный набор из 100 экспертно отобранных задач, охватывающих повседневную жизнь, бизнес и академическую сферу, каждая из которых требует обширного, динамичного и актуального веб-поиска и синтеза. Созданный с затратами более 1500 человеко-часов, LiveResearchBench предоставляет строгую основу для систематической оценки. Для оценки длинных отчетов, основанных на цитатах, мы представляем DeepEval — комплексный набор критериев, охватывающих как качество содержания, так и уровень отчета, включая охват, презентацию, точность и ассоциацию цитат, согласованность и глубину анализа. DeepEval интегрирует четыре взаимодополняющих протокола оценки, каждый из которых разработан для обеспечения стабильной оценки и высокой согласованности с человеческими суждениями. Используя LiveResearchBench и DeepEval, мы проводим всестороннюю оценку 17 передовых систем глубокого исследования, включая однозадачный веб-поиск, однозадачное глубокое исследование и многозадачные системы. Наш анализ выявляет текущие сильные стороны, повторяющиеся ошибки и ключевые компоненты систем, необходимые для продвижения надежного и содержательного глубокого исследования.
English
Deep research -- producing comprehensive, citation-grounded reports by
searching and synthesizing information from hundreds of live web sources --
marks an important frontier for agentic systems. To rigorously evaluate this
ability, four principles are essential: tasks should be (1) user-centric,
reflecting realistic information needs, (2) dynamic, requiring up-to-date
information beyond parametric knowledge, (3) unambiguous, ensuring consistent
interpretation across users, and (4) multi-faceted and search-intensive,
requiring search over numerous web sources and in-depth analysis. Existing
benchmarks fall short of these principles, often focusing on narrow domains or
posing ambiguous questions that hinder fair comparison. Guided by these
principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated
tasks spanning daily life, enterprise, and academia, each requiring extensive,
dynamic, real-time web search and synthesis. Built with over 1,500 hours of
human labor, LiveResearchBench provides a rigorous basis for systematic
evaluation. To evaluate citation-grounded long-form reports, we introduce
DeepEval, a comprehensive suite covering both content- and report-level
quality, including coverage, presentation, citation accuracy and association,
consistency and depth of analysis. DeepEval integrates four complementary
evaluation protocols, each designed to ensure stable assessment and high
agreement with human judgments. Using LiveResearchBench and DeepEval, we
conduct a comprehensive evaluation of 17 frontier deep research systems,
including single-agent web search, single-agent deep research, and multi-agent
systems. Our analysis reveals current strengths, recurring failure modes, and
key system components needed to advance reliable, insightful deep research.