WideSearch: Benchmarking per Agenti con Ampia Ricerca di Informazioni

Abstract

Dalla ricerca professionale alla pianificazione quotidiana, molte attività sono ostacolate dalla ricerca su larga scala di informazioni, che è più ripetitiva che cognitivamente complessa. Con il rapido sviluppo dei Large Language Models (LLM), gli agenti di ricerca automatizzati alimentati da LLM offrono una soluzione promettente per liberare gli esseri umani da questo lavoro tedioso. Tuttavia, la capacità di questi agenti di eseguire in modo affidabile e completo tale raccolta di informazioni in "contesti ampi" rimane in gran parte non valutata a causa della mancanza di benchmark adeguati. Per colmare questa lacuna, introduciamo WideSearch, un nuovo benchmark progettato per valutare l'affidabilità degli agenti in queste attività di raccolta su larga scala. Il benchmark presenta 200 domande curate manualmente (100 in inglese, 100 in cinese) provenienti da oltre 15 domini diversi, basate su query reali degli utenti. Ogni attività richiede agli agenti di raccogliere informazioni atomiche su larga scala, che possono essere verificate una per una in modo oggettivo, e di organizzarle in un output ben strutturato. Un rigoroso processo di controllo qualità in cinque fasi garantisce la difficoltà, la completezza e la verificabilità del dataset. Abbiamo valutato oltre 10 sistemi di ricerca agentici all'avanguardia, inclusi framework a singolo agente, multi-agente e sistemi commerciali end-to-end. La maggior parte dei sistemi raggiunge tassi di successo complessivi vicini allo 0\%, con il miglior risultato che arriva appena al 5\%. Tuttavia, con un tempo sufficiente, la convalida incrociata da parte di più tester umani può raggiungere un tasso di successo vicino al 100\%. Questi risultati dimostrano che gli attuali agenti di ricerca presentano carenze critiche nella ricerca di informazioni su larga scala, evidenziando aree urgenti per la ricerca e lo sviluppo futuri nella ricerca agentica. Il nostro dataset, la pipeline di valutazione e i risultati del benchmark sono stati pubblicamente rilasciati su https://widesearch-seed.github.io/.

English

From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/

WideSearch: Benchmarking per Agenti con Ampia Ricerca di Informazioni

WideSearch: Benchmarking Agentic Broad Info-Seeking

Abstract

Support