WideSearch: Benchmarking per Agenti con Ampia Ricerca di Informazioni
WideSearch: Benchmarking Agentic Broad Info-Seeking
August 11, 2025
Autori: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI
Abstract
Dalla ricerca professionale alla pianificazione quotidiana, molte attività sono ostacolate dalla ricerca su larga scala di informazioni, che è più ripetitiva che cognitivamente complessa. Con il rapido sviluppo dei Large Language Models (LLM), gli agenti di ricerca automatizzati alimentati da LLM offrono una soluzione promettente per liberare gli esseri umani da questo lavoro tedioso. Tuttavia, la capacità di questi agenti di eseguire in modo affidabile e completo tale raccolta di informazioni in "contesti ampi" rimane in gran parte non valutata a causa della mancanza di benchmark adeguati. Per colmare questa lacuna, introduciamo WideSearch, un nuovo benchmark progettato per valutare l'affidabilità degli agenti in queste attività di raccolta su larga scala. Il benchmark presenta 200 domande curate manualmente (100 in inglese, 100 in cinese) provenienti da oltre 15 domini diversi, basate su query reali degli utenti. Ogni attività richiede agli agenti di raccogliere informazioni atomiche su larga scala, che possono essere verificate una per una in modo oggettivo, e di organizzarle in un output ben strutturato. Un rigoroso processo di controllo qualità in cinque fasi garantisce la difficoltà, la completezza e la verificabilità del dataset. Abbiamo valutato oltre 10 sistemi di ricerca agentici all'avanguardia, inclusi framework a singolo agente, multi-agente e sistemi commerciali end-to-end. La maggior parte dei sistemi raggiunge tassi di successo complessivi vicini allo 0\%, con il miglior risultato che arriva appena al 5\%. Tuttavia, con un tempo sufficiente, la convalida incrociata da parte di più tester umani può raggiungere un tasso di successo vicino al 100\%. Questi risultati dimostrano che gli attuali agenti di ricerca presentano carenze critiche nella ricerca di informazioni su larga scala, evidenziando aree urgenti per la ricerca e lo sviluppo futuri nella ricerca agentica. Il nostro dataset, la pipeline di valutazione e i risultati del benchmark sono stati pubblicamente rilasciati su https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked
by wide-scale information seeking, which is more repetitive than cognitively
complex. With the rapid development of Large Language Models (LLMs), automated
search agents powered by LLMs offer a promising solution to liberate humans
from this tedious work. However, the capability of these agents to perform such
"wide-context" collection reliably and completely remains largely unevaluated
due to a lack of suitable benchmarks. To bridge this gap, we introduce
WideSearch, a new benchmark engineered to evaluate agent reliability on these
large-scale collection tasks. The benchmark features 200 manually curated
questions (100 in English, 100 in Chinese) from over 15 diverse domains,
grounded in real user queries. Each task requires agents to collect large-scale
atomic information, which could be verified one by one objectively, and arrange
it into a well-organized output. A rigorous five-stage quality control pipeline
ensures the difficulty, completeness, and verifiability of the dataset. We
benchmark over 10 state-of-the-art agentic search systems, including
single-agent, multi-agent frameworks, and end-to-end commercial systems. Most
systems achieve overall success rates near 0\%, with the best performer
reaching just 5\%. However, given sufficient time, cross-validation by multiple
human testers can achieve a near 100\% success rate. These results demonstrate
that present search agents have critical deficiencies in large-scale
information seeking, underscoring urgent areas for future research and
development in agentic search. Our dataset, evaluation pipeline, and benchmark
results have been publicly released at https://widesearch-seed.github.io/