WideSearch: Benchmarking agentisches breitgefächertes Informationssuchen
WideSearch: Benchmarking Agentic Broad Info-Seeking
August 11, 2025
papers.authors: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI
papers.abstract
Von der professionellen Forschung bis zur alltäglichen Planung werden viele Aufgaben durch die Suche nach umfangreichen Informationen behindert, die eher repetitiv als kognitiv komplex ist. Mit der rasanten Entwicklung von Large Language Models (LLMs) bieten automatisierte Suchagenten, die von LLMs angetrieben werden, eine vielversprechende Lösung, um Menschen von dieser mühsamen Arbeit zu befreien. Die Fähigkeit dieser Agenten, eine solche „weitreichende“ Informationssammlung zuverlässig und vollständig durchzuführen, bleibt jedoch weitgehend unevaluiert, da es an geeigneten Benchmarks mangelt. Um diese Lücke zu schließen, stellen wir WideSearch vor, einen neuen Benchmark, der entwickelt wurde, um die Zuverlässigkeit von Agenten bei diesen groß angelegten Sammelaufgaben zu bewerten. Der Benchmark umfasst 200 manuell kuratierte Fragen (100 auf Englisch, 100 auf Chinesisch) aus über 15 verschiedenen Domänen, die auf echten Benutzeranfragen basieren. Jede Aufgabe erfordert, dass die Agenten groß angelegte atomare Informationen sammeln, die objektiv einzeln überprüft werden können, und diese in eine gut organisierte Ausgabe anordnen. Eine strenge fünfstufige Qualitätskontrollpipeline gewährleistet die Schwierigkeit, Vollständigkeit und Überprüfbarkeit des Datensatzes. Wir benchmarken über 10 state-of-the-art agentenbasierte Suchsysteme, darunter Einzelagenten-, Multi-Agenten-Frameworks und end-to-end kommerzielle Systeme. Die meisten Systeme erreichen Gesamterfolgsquoten nahe 0\%, wobei das beste System gerade einmal 5\% erreicht. Bei ausreichender Zeit kann jedoch eine Kreuzvalidierung durch mehrere menschliche Tester eine Erfolgsquote von nahezu 100\% erreichen. Diese Ergebnisse zeigen, dass aktuelle Suchagenten kritische Mängel bei der groß angelegten Informationssuche aufweisen, was dringende Bereiche für zukünftige Forschung und Entwicklung in der agentenbasierten Suche unterstreicht. Unser Datensatz, die Evaluationspipeline und die Benchmark-Ergebnisse wurden öffentlich unter https://widesearch-seed.github.io/ freigegeben.
English
From professional research to everyday planning, many tasks are bottlenecked
by wide-scale information seeking, which is more repetitive than cognitively
complex. With the rapid development of Large Language Models (LLMs), automated
search agents powered by LLMs offer a promising solution to liberate humans
from this tedious work. However, the capability of these agents to perform such
"wide-context" collection reliably and completely remains largely unevaluated
due to a lack of suitable benchmarks. To bridge this gap, we introduce
WideSearch, a new benchmark engineered to evaluate agent reliability on these
large-scale collection tasks. The benchmark features 200 manually curated
questions (100 in English, 100 in Chinese) from over 15 diverse domains,
grounded in real user queries. Each task requires agents to collect large-scale
atomic information, which could be verified one by one objectively, and arrange
it into a well-organized output. A rigorous five-stage quality control pipeline
ensures the difficulty, completeness, and verifiability of the dataset. We
benchmark over 10 state-of-the-art agentic search systems, including
single-agent, multi-agent frameworks, and end-to-end commercial systems. Most
systems achieve overall success rates near 0\%, with the best performer
reaching just 5\%. However, given sufficient time, cross-validation by multiple
human testers can achieve a near 100\% success rate. These results demonstrate
that present search agents have critical deficiencies in large-scale
information seeking, underscoring urgent areas for future research and
development in agentic search. Our dataset, evaluation pipeline, and benchmark
results have been publicly released at https://widesearch-seed.github.io/