LiveResearchBench: 실제 환경에서 사용자 중심의 심층 연구를 위한 실시간 벤치마크
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
October 16, 2025
저자: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI
초록
심층 연구(Deep research) -- 수백 개의 실시간 웹 소스에서 정보를 검색하고 종합하여 포괄적이고 인용 기반 보고서를 생성하는 작업 --은 에이전트 시스템의 중요한 전선을 나타냅니다. 이 능력을 엄격하게 평가하기 위해 네 가지 원칙이 필수적입니다: 과제는 (1) 사용자 중심적이어야 하며, 현실적인 정보 요구를 반영해야 하고, (2) 동적이어야 하며, 파라메트릭 지식을 넘어 최신 정보를 요구해야 하며, (3) 명확해야 하며, 사용자 간 일관된 해석을 보장해야 하고, (4) 다면적이고 검색 집중적이어야 하며, 수많은 웹 소스에 대한 검색과 심층 분석을 요구해야 합니다. 기존 벤치마크는 이러한 원칙을 충족하지 못하며, 종종 좁은 도메인에 초점을 맞추거나 모호한 질문을 제시하여 공정한 비교를 방해합니다. 이러한 원칙을 바탕으로, 우리는 LiveResearchBench를 소개합니다. 이는 일상 생활, 기업, 학계를 아우르는 100개의 전문가가 선별한 과제로 구성된 벤치마크로, 각 과제는 광범위하고 동적이며 실시간 웹 검색과 종합을 요구합니다. 1,500시간 이상의 인간 노동을 통해 구축된 LiveResearchBench는 체계적인 평가를 위한 엄격한 기반을 제공합니다. 인용 기반 장문 보고서를 평가하기 위해, 우리는 DeepEval을 도입했습니다. 이는 내용 및 보고서 수준의 품질을 모두 포괄하는 포괄적인 평가 도구로, 커버리지, 프레젠테이션, 인용 정확성 및 연관성, 일관성 및 분석 깊이를 포함합니다. DeepEval은 안정적인 평가와 인간 판단과의 높은 일치를 보장하기 위해 설계된 네 가지 상호 보완적인 평가 프로토콜을 통합합니다. LiveResearchBench와 DeepEval을 사용하여, 우리는 단일 에이전트 웹 검색, 단일 에이전트 심층 연구, 다중 에이전트 시스템을 포함한 17개의 최첨단 심층 연구 시스템에 대한 포괄적인 평가를 수행했습니다. 우리의 분석은 현재의 강점, 반복되는 실패 모드, 그리고 신뢰할 수 있고 통찰력 있는 심층 연구를 발전시키기 위해 필요한 핵심 시스템 구성 요소를 밝혀냈습니다.
English
Deep research -- producing comprehensive, citation-grounded reports by
searching and synthesizing information from hundreds of live web sources --
marks an important frontier for agentic systems. To rigorously evaluate this
ability, four principles are essential: tasks should be (1) user-centric,
reflecting realistic information needs, (2) dynamic, requiring up-to-date
information beyond parametric knowledge, (3) unambiguous, ensuring consistent
interpretation across users, and (4) multi-faceted and search-intensive,
requiring search over numerous web sources and in-depth analysis. Existing
benchmarks fall short of these principles, often focusing on narrow domains or
posing ambiguous questions that hinder fair comparison. Guided by these
principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated
tasks spanning daily life, enterprise, and academia, each requiring extensive,
dynamic, real-time web search and synthesis. Built with over 1,500 hours of
human labor, LiveResearchBench provides a rigorous basis for systematic
evaluation. To evaluate citation-grounded long-form reports, we introduce
DeepEval, a comprehensive suite covering both content- and report-level
quality, including coverage, presentation, citation accuracy and association,
consistency and depth of analysis. DeepEval integrates four complementary
evaluation protocols, each designed to ensure stable assessment and high
agreement with human judgments. Using LiveResearchBench and DeepEval, we
conduct a comprehensive evaluation of 17 frontier deep research systems,
including single-agent web search, single-agent deep research, and multi-agent
systems. Our analysis reveals current strengths, recurring failure modes, and
key system components needed to advance reliable, insightful deep research.