WideSearch: Avaliação de Busca de Informação Ampla por Agentes
WideSearch: Benchmarking Agentic Broad Info-Seeking
August 11, 2025
Autores: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI
Resumo
Desde pesquisas profissionais até o planejamento cotidiano, muitas tarefas são limitadas pela busca de informações em larga escala, que é mais repetitiva do que cognitivamente complexa. Com o rápido desenvolvimento dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), agentes de busca automatizados impulsionados por LLMs oferecem uma solução promissora para liberar os humanos desse trabalho tedioso. No entanto, a capacidade desses agentes de realizar essa coleta de "contexto amplo" de forma confiável e completa permanece amplamente não avaliada devido à falta de benchmarks adequados. Para preencher essa lacuna, apresentamos o WideSearch, um novo benchmark projetado para avaliar a confiabilidade dos agentes nessas tarefas de coleta em larga escala. O benchmark apresenta 200 questões curadas manualmente (100 em inglês, 100 em chinês) de mais de 15 domínios diversos, baseadas em consultas reais de usuários. Cada tarefa exige que os agentes coletem informações atômicas em larga escala, que podem ser verificadas uma por uma de forma objetiva, e as organizem em uma saída bem estruturada. Um rigoroso pipeline de controle de qualidade em cinco etapas garante a dificuldade, a completude e a verificabilidade do conjunto de dados. Avaliamos mais de 10 sistemas de busca agentic de última geração, incluindo frameworks de agente único, multiagente e sistemas comerciais de ponta a ponta. A maioria dos sistemas alcança taxas de sucesso geral próximas de 0\%, com o melhor desempenho atingindo apenas 5\%. No entanto, com tempo suficiente, a validação cruzada por vários testadores humanos pode alcançar uma taxa de sucesso próxima de 100\%. Esses resultados demonstram que os agentes de busca atuais têm deficiências críticas na busca de informações em larga escala, destacando áreas urgentes para pesquisa e desenvolvimento futuro em busca agentic. Nosso conjunto de dados, pipeline de avaliação e resultados de benchmark foram disponibilizados publicamente em https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked
by wide-scale information seeking, which is more repetitive than cognitively
complex. With the rapid development of Large Language Models (LLMs), automated
search agents powered by LLMs offer a promising solution to liberate humans
from this tedious work. However, the capability of these agents to perform such
"wide-context" collection reliably and completely remains largely unevaluated
due to a lack of suitable benchmarks. To bridge this gap, we introduce
WideSearch, a new benchmark engineered to evaluate agent reliability on these
large-scale collection tasks. The benchmark features 200 manually curated
questions (100 in English, 100 in Chinese) from over 15 diverse domains,
grounded in real user queries. Each task requires agents to collect large-scale
atomic information, which could be verified one by one objectively, and arrange
it into a well-organized output. A rigorous five-stage quality control pipeline
ensures the difficulty, completeness, and verifiability of the dataset. We
benchmark over 10 state-of-the-art agentic search systems, including
single-agent, multi-agent frameworks, and end-to-end commercial systems. Most
systems achieve overall success rates near 0\%, with the best performer
reaching just 5\%. However, given sufficient time, cross-validation by multiple
human testers can achieve a near 100\% success rate. These results demonstrate
that present search agents have critical deficiencies in large-scale
information seeking, underscoring urgent areas for future research and
development in agentic search. Our dataset, evaluation pipeline, and benchmark
results have been publicly released at https://widesearch-seed.github.io/