WideSearch: Benchmarken van Agentgericht Breed Informatie Zoeken
WideSearch: Benchmarking Agentic Broad Info-Seeking
August 11, 2025
Auteurs: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI
Samenvatting
Van professioneel onderzoek tot alledaagse planning worden veel taken belemmerd
door grootschalige informatiezoektochten, die meer repetitief dan cognitief
complex zijn. Met de snelle ontwikkeling van Large Language Models (LLM's) bieden
geautomatiseerde zoekagentschappen, aangedreven door LLM's, een veelbelovende
oplossing om mensen van dit vervelende werk te bevrijden. Het vermogen van deze
agentschappen om dergelijke "breed-contextuele" verzamelingen betrouwbaar en
volledig uit te voeren, blijft echter grotendeels onbeoordeeld vanwege een gebrek
aan geschikte benchmarks. Om deze kloof te overbruggen, introduceren we
WideSearch, een nieuwe benchmark ontworpen om de betrouwbaarheid van agentschappen
bij deze grootschalige verzameltaken te evalueren. De benchmark bevat 200 handmatig
samengestelde vragen (100 in het Engels, 100 in het Chinees) uit meer dan 15
diverse domeinen, gebaseerd op echte gebruikersvragen. Elke taak vereist dat
agentschappen grootschalige atomische informatie verzamelen, die objectief een
voor een geverifieerd kan worden, en deze in een goed georganiseerde uitvoer
rangschikken. Een rigoureuze vijfstappen kwaliteitscontrolepijplijn zorgt voor de
moeilijkheidsgraad, volledigheid en verifieerbaarheid van de dataset. We testen
meer dan 10 state-of-the-art zoeksystemen voor agentschappen, waaronder
single-agent, multi-agent frameworks en end-to-end commerciële systemen. De meeste
systemen behalen algehele slagingspercentages van bijna 0\%, waarbij de beste
presteerder slechts 5\% bereikt. Echter, met voldoende tijd kan kruisvalidatie door
meerdere menselijke testers een slagingspercentage van bijna 100\% bereiken. Deze
resultaten tonen aan dat huidige zoekagentschappen kritieke tekortkomingen hebben
bij grootschalige informatiezoektochten, wat dringende gebieden voor toekomstig
onderzoek en ontwikkeling in zoekagentschappen onderstreept. Onze dataset,
evaluatiepijplijn en benchmarkresultaten zijn openbaar vrijgegeven op
https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked
by wide-scale information seeking, which is more repetitive than cognitively
complex. With the rapid development of Large Language Models (LLMs), automated
search agents powered by LLMs offer a promising solution to liberate humans
from this tedious work. However, the capability of these agents to perform such
"wide-context" collection reliably and completely remains largely unevaluated
due to a lack of suitable benchmarks. To bridge this gap, we introduce
WideSearch, a new benchmark engineered to evaluate agent reliability on these
large-scale collection tasks. The benchmark features 200 manually curated
questions (100 in English, 100 in Chinese) from over 15 diverse domains,
grounded in real user queries. Each task requires agents to collect large-scale
atomic information, which could be verified one by one objectively, and arrange
it into a well-organized output. A rigorous five-stage quality control pipeline
ensures the difficulty, completeness, and verifiability of the dataset. We
benchmark over 10 state-of-the-art agentic search systems, including
single-agent, multi-agent frameworks, and end-to-end commercial systems. Most
systems achieve overall success rates near 0\%, with the best performer
reaching just 5\%. However, given sufficient time, cross-validation by multiple
human testers can achieve a near 100\% success rate. These results demonstrate
that present search agents have critical deficiencies in large-scale
information seeking, underscoring urgent areas for future research and
development in agentic search. Our dataset, evaluation pipeline, and benchmark
results have been publicly released at https://widesearch-seed.github.io/