WideSearch : Évaluation des Agents de Recherche d'Information à Large Spectre

papers.abstract

De la recherche professionnelle à la planification quotidienne, de nombreuses tâches sont entravées par la recherche d'informations à grande échelle, qui est plus répétitive que cognitivement complexe. Avec le développement rapide des modèles de langage à grande échelle (LLMs), les agents de recherche automatisés alimentés par ces LLMs offrent une solution prometteuse pour libérer les humains de ce travail fastidieux. Cependant, la capacité de ces agents à effectuer une collecte d'informations dans un "contexte large" de manière fiable et complète reste largement non évaluée en raison d'un manque de benchmarks appropriés. Pour combler cette lacune, nous introduisons WideSearch, un nouveau benchmark conçu pour évaluer la fiabilité des agents sur ces tâches de collecte à grande échelle. Le benchmark comprend 200 questions soigneusement sélectionnées (100 en anglais, 100 en chinois) provenant de plus de 15 domaines divers, ancrées dans des requêtes réelles d'utilisateurs. Chaque tâche exige que les agents collectent des informations atomiques à grande échelle, qui peuvent être vérifiées une par une de manière objective, et les organisent en une sortie bien structurée. Un pipeline rigoureux de contrôle qualité en cinq étapes garantit la difficulté, l'exhaustivité et la vérifiabilité du jeu de données. Nous évaluons plus de 10 systèmes de recherche agentique de pointe, incluant des frameworks mono-agent, multi-agents et des systèmes commerciaux de bout en bout. La plupart des systèmes atteignent des taux de réussite globaux proches de 0\%, le meilleur performant atteignant à peine 5\%. Cependant, avec suffisamment de temps, une validation croisée par plusieurs testeurs humains peut atteindre un taux de réussite proche de 100\%. Ces résultats démontrent que les agents de recherche actuels présentent des lacunes critiques dans la recherche d'informations à grande échelle, soulignant des domaines urgents pour la recherche et le développement futurs dans la recherche agentique. Notre jeu de données, pipeline d'évaluation et résultats de benchmark ont été rendus publics à l'adresse https://widesearch-seed.github.io/.

English

From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/

WideSearch : Évaluation des Agents de Recherche d'Information à Large Spectre

WideSearch: Benchmarking Agentic Broad Info-Seeking

papers.abstract

Support