ChatPaper.aiChatPaper

LiveResearchBench: Um Benchmark em Tempo Real para Pesquisa Profunda Centrada no Usuário em Ambientes Reais

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

October 16, 2025
Autores: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
cs.AI

Resumo

Pesquisa aprofundada -- produzindo relatórios abrangentes e fundamentados em citações por meio da busca e síntese de informações de centenas de fontes web em tempo real -- representa uma fronteira importante para sistemas agentivos. Para avaliar rigorosamente essa capacidade, quatro princípios são essenciais: as tarefas devem ser (1) centradas no usuário, refletindo necessidades de informação realistas, (2) dinâmicas, exigindo informações atualizadas além do conhecimento paramétrico, (3) inequívocas, garantindo interpretação consistente entre os usuários, e (4) multifacetadas e intensivas em busca, exigindo pesquisa em inúmeras fontes web e análise aprofundada. Os benchmarks existentes não atendem a esses princípios, muitas vezes focando em domínios restritos ou apresentando perguntas ambíguas que dificultam a comparação justa. Guiados por esses princípios, introduzimos o LiveResearchBench, um benchmark de 100 tarefas curadas por especialistas, abrangendo vida cotidiana, empresas e academia, cada uma exigindo busca web extensiva, dinâmica e em tempo real, além de síntese. Construído com mais de 1.500 horas de trabalho humano, o LiveResearchBench fornece uma base rigorosa para avaliação sistemática. Para avaliar relatórios longos fundamentados em citações, introduzimos o DeepEval, um conjunto abrangente que cobre tanto a qualidade do conteúdo quanto do relatório, incluindo cobertura, apresentação, precisão e associação de citações, consistência e profundidade da análise. O DeepEval integra quatro protocolos de avaliação complementares, cada um projetado para garantir avaliação estável e alta concordância com julgamentos humanos. Usando o LiveResearchBench e o DeepEval, realizamos uma avaliação abrangente de 17 sistemas de pesquisa aprofundada de ponta, incluindo busca web com agente único, pesquisa aprofundada com agente único e sistemas multiagentes. Nossa análise revela pontos fortes atuais, modos de falha recorrentes e componentes-chave do sistema necessários para avançar em pesquisas aprofundadas confiáveis e perspicazes.
English
Deep research -- producing comprehensive, citation-grounded reports by searching and synthesizing information from hundreds of live web sources -- marks an important frontier for agentic systems. To rigorously evaluate this ability, four principles are essential: tasks should be (1) user-centric, reflecting realistic information needs, (2) dynamic, requiring up-to-date information beyond parametric knowledge, (3) unambiguous, ensuring consistent interpretation across users, and (4) multi-faceted and search-intensive, requiring search over numerous web sources and in-depth analysis. Existing benchmarks fall short of these principles, often focusing on narrow domains or posing ambiguous questions that hinder fair comparison. Guided by these principles, we introduce LiveResearchBench, a benchmark of 100 expert-curated tasks spanning daily life, enterprise, and academia, each requiring extensive, dynamic, real-time web search and synthesis. Built with over 1,500 hours of human labor, LiveResearchBench provides a rigorous basis for systematic evaluation. To evaluate citation-grounded long-form reports, we introduce DeepEval, a comprehensive suite covering both content- and report-level quality, including coverage, presentation, citation accuracy and association, consistency and depth of analysis. DeepEval integrates four complementary evaluation protocols, each designed to ensure stable assessment and high agreement with human judgments. Using LiveResearchBench and DeepEval, we conduct a comprehensive evaluation of 17 frontier deep research systems, including single-agent web search, single-agent deep research, and multi-agent systems. Our analysis reveals current strengths, recurring failure modes, and key system components needed to advance reliable, insightful deep research.
PDF112October 17, 2025