WideSearch: Benchmarking agentisches breitgefächertes Informationssuchen

papers.abstract

Von der professionellen Forschung bis zur alltäglichen Planung werden viele Aufgaben durch die Suche nach umfangreichen Informationen behindert, die eher repetitiv als kognitiv komplex ist. Mit der rasanten Entwicklung von Large Language Models (LLMs) bieten automatisierte Suchagenten, die von LLMs angetrieben werden, eine vielversprechende Lösung, um Menschen von dieser mühsamen Arbeit zu befreien. Die Fähigkeit dieser Agenten, eine solche „weitreichende“ Informationssammlung zuverlässig und vollständig durchzuführen, bleibt jedoch weitgehend unevaluiert, da es an geeigneten Benchmarks mangelt. Um diese Lücke zu schließen, stellen wir WideSearch vor, einen neuen Benchmark, der entwickelt wurde, um die Zuverlässigkeit von Agenten bei diesen groß angelegten Sammelaufgaben zu bewerten. Der Benchmark umfasst 200 manuell kuratierte Fragen (100 auf Englisch, 100 auf Chinesisch) aus über 15 verschiedenen Domänen, die auf echten Benutzeranfragen basieren. Jede Aufgabe erfordert, dass die Agenten groß angelegte atomare Informationen sammeln, die objektiv einzeln überprüft werden können, und diese in eine gut organisierte Ausgabe anordnen. Eine strenge fünfstufige Qualitätskontrollpipeline gewährleistet die Schwierigkeit, Vollständigkeit und Überprüfbarkeit des Datensatzes. Wir benchmarken über 10 state-of-the-art agentenbasierte Suchsysteme, darunter Einzelagenten-, Multi-Agenten-Frameworks und end-to-end kommerzielle Systeme. Die meisten Systeme erreichen Gesamterfolgsquoten nahe 0\%, wobei das beste System gerade einmal 5\% erreicht. Bei ausreichender Zeit kann jedoch eine Kreuzvalidierung durch mehrere menschliche Tester eine Erfolgsquote von nahezu 100\% erreichen. Diese Ergebnisse zeigen, dass aktuelle Suchagenten kritische Mängel bei der groß angelegten Informationssuche aufweisen, was dringende Bereiche für zukünftige Forschung und Entwicklung in der agentenbasierten Suche unterstreicht. Unser Datensatz, die Evaluationspipeline und die Benchmark-Ergebnisse wurden öffentlich unter https://widesearch-seed.github.io/ freigegeben.

English

From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/

WideSearch: Benchmarking agentisches breitgefächertes Informationssuchen

WideSearch: Benchmarking Agentic Broad Info-Seeking

papers.abstract

Support