ChatPaper.aiChatPaper

LiveResearchBench: 実環境におけるユーザー中心の深層研究のためのライブベンチマーク

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

October 16, 2025
著者: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI

要旨

深い研究――数百のライブウェブソースから情報を検索し統合することで、引用に基づいた包括的なレポートを生成すること――は、エージェントシステムにとって重要なフロンティアである。この能力を厳密に評価するためには、以下の4つの原則が不可欠である:タスクは(1)ユーザー中心であり、現実的な情報ニーズを反映するべき、(2)動的であり、パラメトリックな知識を超えた最新の情報を必要とするべき、(3)明確であり、ユーザー間で一貫した解釈を保証するべき、(4)多面的で検索集約的であり、多数のウェブソースにわたる検索と深い分析を必要とするべきである。既存のベンチマークはこれらの原則に欠けており、狭いドメインに焦点を当てたり、公平な比較を妨げる曖昧な質問を提示することが多い。これらの原則に基づいて、我々はLiveResearchBenchを導入する。これは、日常生活、企業、学術界にわたる100の専門家が選定したタスクからなるベンチマークであり、それぞれが広範で動的かつリアルタイムなウェブ検索と統合を必要とする。1,500時間以上の人的労力をかけて構築されたLiveResearchBenchは、体系的な評価のための厳密な基盤を提供する。引用に基づいた長文レポートを評価するために、我々はDeepEvalを導入する。これは、内容レベルとレポートレベルの品質を包括的にカバーする評価スイートであり、カバレッジ、プレゼンテーション、引用の正確性と関連性、一貫性と分析の深さを含む。DeepEvalは、安定した評価と人間の判断との高い一致を保証するために設計された4つの補完的な評価プロトコルを統合している。LiveResearchBenchとDeepEvalを使用して、我々は17の最先端の深い研究システムを包括的に評価する。これには、単一エージェントのウェブ検索、単一エージェントの深い研究、およびマルチエージェントシステムが含まれる。我々の分析は、現在の強み、繰り返し発生する失敗モード、信頼性の高い洞察に満ちた深い研究を進めるために必要な主要なシステムコンポーネントを明らかにする。
English
Deep research -- producing comprehensive, citation-grounded reports by searching and synthesizing information from hundreds of live web sources -- marks an important frontier for agentic systems. To rigorously evaluate this ability, four principles are essential: tasks should be (1) user-centric, reflecting realistic information needs, (2) dynamic, requiring up-to-date information beyond parametric knowledge, (3) unambiguous, ensuring consistent interpretation across users, and (4) multi-faceted and search-intensive, requiring search over numerous web sources and in-depth analysis. Existing benchmarks fall short of these principles, often focusing on narrow domains or posing ambiguous questions that hinder fair comparison. Guided by these principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated tasks spanning daily life, enterprise, and academia, each requiring extensive, dynamic, real-time web search and synthesis. Built with over 1,500 hours of human labor, LiveResearchBench provides a rigorous basis for systematic evaluation. To evaluate citation-grounded long-form reports, we introduce DeepEval, a comprehensive suite covering both content- and report-level quality, including coverage, presentation, citation accuracy and association, consistency and depth of analysis. DeepEval integrates four complementary evaluation protocols, each designed to ensure stable assessment and high agreement with human judgments. Using LiveResearchBench and DeepEval, we conduct a comprehensive evaluation of 17 frontier deep research systems, including single-agent web search, single-agent deep research, and multi-agent systems. Our analysis reveals current strengths, recurring failure modes, and key system components needed to advance reliable, insightful deep research.
PDF112October 17, 2025