WideSearch : Évaluation des Agents de Recherche d'Information à Large Spectre
WideSearch: Benchmarking Agentic Broad Info-Seeking
August 11, 2025
papers.authors: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI
papers.abstract
De la recherche professionnelle à la planification quotidienne, de nombreuses tâches sont entravées par la recherche d'informations à grande échelle, qui est plus répétitive que cognitivement complexe. Avec le développement rapide des modèles de langage à grande échelle (LLMs), les agents de recherche automatisés alimentés par ces LLMs offrent une solution prometteuse pour libérer les humains de ce travail fastidieux. Cependant, la capacité de ces agents à effectuer une collecte d'informations dans un "contexte large" de manière fiable et complète reste largement non évaluée en raison d'un manque de benchmarks appropriés. Pour combler cette lacune, nous introduisons WideSearch, un nouveau benchmark conçu pour évaluer la fiabilité des agents sur ces tâches de collecte à grande échelle. Le benchmark comprend 200 questions soigneusement sélectionnées (100 en anglais, 100 en chinois) provenant de plus de 15 domaines divers, ancrées dans des requêtes réelles d'utilisateurs. Chaque tâche exige que les agents collectent des informations atomiques à grande échelle, qui peuvent être vérifiées une par une de manière objective, et les organisent en une sortie bien structurée. Un pipeline rigoureux de contrôle qualité en cinq étapes garantit la difficulté, l'exhaustivité et la vérifiabilité du jeu de données. Nous évaluons plus de 10 systèmes de recherche agentique de pointe, incluant des frameworks mono-agent, multi-agents et des systèmes commerciaux de bout en bout. La plupart des systèmes atteignent des taux de réussite globaux proches de 0\%, le meilleur performant atteignant à peine 5\%. Cependant, avec suffisamment de temps, une validation croisée par plusieurs testeurs humains peut atteindre un taux de réussite proche de 100\%. Ces résultats démontrent que les agents de recherche actuels présentent des lacunes critiques dans la recherche d'informations à grande échelle, soulignant des domaines urgents pour la recherche et le développement futurs dans la recherche agentique. Notre jeu de données, pipeline d'évaluation et résultats de benchmark ont été rendus publics à l'adresse https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked
by wide-scale information seeking, which is more repetitive than cognitively
complex. With the rapid development of Large Language Models (LLMs), automated
search agents powered by LLMs offer a promising solution to liberate humans
from this tedious work. However, the capability of these agents to perform such
"wide-context" collection reliably and completely remains largely unevaluated
due to a lack of suitable benchmarks. To bridge this gap, we introduce
WideSearch, a new benchmark engineered to evaluate agent reliability on these
large-scale collection tasks. The benchmark features 200 manually curated
questions (100 in English, 100 in Chinese) from over 15 diverse domains,
grounded in real user queries. Each task requires agents to collect large-scale
atomic information, which could be verified one by one objectively, and arrange
it into a well-organized output. A rigorous five-stage quality control pipeline
ensures the difficulty, completeness, and verifiability of the dataset. We
benchmark over 10 state-of-the-art agentic search systems, including
single-agent, multi-agent frameworks, and end-to-end commercial systems. Most
systems achieve overall success rates near 0\%, with the best performer
reaching just 5\%. However, given sufficient time, cross-validation by multiple
human testers can achieve a near 100\% success rate. These results demonstrate
that present search agents have critical deficiencies in large-scale
information seeking, underscoring urgent areas for future research and
development in agentic search. Our dataset, evaluation pipeline, and benchmark
results have been publicly released at https://widesearch-seed.github.io/