ChatPaper.aiChatPaper

WideSearch: Benchmarken van Agentgericht Breed Informatie Zoeken

WideSearch: Benchmarking Agentic Broad Info-Seeking

August 11, 2025
Auteurs: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI

Samenvatting

Van professioneel onderzoek tot alledaagse planning worden veel taken belemmerd door grootschalige informatiezoektochten, die meer repetitief dan cognitief complex zijn. Met de snelle ontwikkeling van Large Language Models (LLM's) bieden geautomatiseerde zoekagentschappen, aangedreven door LLM's, een veelbelovende oplossing om mensen van dit vervelende werk te bevrijden. Het vermogen van deze agentschappen om dergelijke "breed-contextuele" verzamelingen betrouwbaar en volledig uit te voeren, blijft echter grotendeels onbeoordeeld vanwege een gebrek aan geschikte benchmarks. Om deze kloof te overbruggen, introduceren we WideSearch, een nieuwe benchmark ontworpen om de betrouwbaarheid van agentschappen bij deze grootschalige verzameltaken te evalueren. De benchmark bevat 200 handmatig samengestelde vragen (100 in het Engels, 100 in het Chinees) uit meer dan 15 diverse domeinen, gebaseerd op echte gebruikersvragen. Elke taak vereist dat agentschappen grootschalige atomische informatie verzamelen, die objectief een voor een geverifieerd kan worden, en deze in een goed georganiseerde uitvoer rangschikken. Een rigoureuze vijfstappen kwaliteitscontrolepijplijn zorgt voor de moeilijkheidsgraad, volledigheid en verifieerbaarheid van de dataset. We testen meer dan 10 state-of-the-art zoeksystemen voor agentschappen, waaronder single-agent, multi-agent frameworks en end-to-end commerciële systemen. De meeste systemen behalen algehele slagingspercentages van bijna 0\%, waarbij de beste presteerder slechts 5\% bereikt. Echter, met voldoende tijd kan kruisvalidatie door meerdere menselijke testers een slagingspercentage van bijna 100\% bereiken. Deze resultaten tonen aan dat huidige zoekagentschappen kritieke tekortkomingen hebben bij grootschalige informatiezoektochten, wat dringende gebieden voor toekomstig onderzoek en ontwikkeling in zoekagentschappen onderstreept. Onze dataset, evaluatiepijplijn en benchmarkresultaten zijn openbaar vrijgegeven op https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/
PDF1093August 12, 2025