WideSearch: Бенчмаркинг агентного широкого поиска информации
WideSearch: Benchmarking Agentic Broad Info-Seeking
August 11, 2025
Авторы: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI
Аннотация
От профессиональных исследований до повседневного планирования многие задачи ограничиваются масштабным поиском информации, который скорее повторяющийся, чем когнитивно сложный. С быстрым развитием крупных языковых моделей (LLM) автоматизированные поисковые агенты, основанные на LLM, предлагают перспективное решение для освобождения людей от этой утомительной работы. Однако способность этих агентов выполнять такой "ширококонтекстный" сбор информации надежно и полно остается в значительной степени неоцененной из-за отсутствия подходящих бенчмарков. Чтобы устранить этот пробел, мы представляем WideSearch — новый бенчмарк, разработанный для оценки надежности агентов в задачах масштабного сбора информации. Бенчмарк включает 200 вручную отобранных вопросов (100 на английском, 100 на китайском) из более чем 15 различных областей, основанных на реальных пользовательских запросах. Каждая задача требует от агентов сбора масштабной атомарной информации, которую можно объективно проверить по отдельности, и организации ее в структурированный вывод. Строгий пятиэтапный процесс контроля качества обеспечивает сложность, полноту и проверяемость набора данных. Мы тестируем более 10 современных поисковых систем, включая одноагентные, многоагентные фреймворки и коммерческие системы с полным циклом. Большинство систем демонстрируют общий уровень успешности, близкий к 0\%, при этом лучший результат составляет всего 5\%. Однако при достаточном времени перекрестная проверка несколькими тестировщиками-людьми может достичь почти 100\% успешности. Эти результаты показывают, что современные поисковые агенты имеют серьезные недостатки в масштабном поиске информации, что подчеркивает актуальные направления для будущих исследований и разработок в области агентного поиска. Наш набор данных, процесс оценки и результаты бенчмарка публично доступны по адресу https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked
by wide-scale information seeking, which is more repetitive than cognitively
complex. With the rapid development of Large Language Models (LLMs), automated
search agents powered by LLMs offer a promising solution to liberate humans
from this tedious work. However, the capability of these agents to perform such
"wide-context" collection reliably and completely remains largely unevaluated
due to a lack of suitable benchmarks. To bridge this gap, we introduce
WideSearch, a new benchmark engineered to evaluate agent reliability on these
large-scale collection tasks. The benchmark features 200 manually curated
questions (100 in English, 100 in Chinese) from over 15 diverse domains,
grounded in real user queries. Each task requires agents to collect large-scale
atomic information, which could be verified one by one objectively, and arrange
it into a well-organized output. A rigorous five-stage quality control pipeline
ensures the difficulty, completeness, and verifiability of the dataset. We
benchmark over 10 state-of-the-art agentic search systems, including
single-agent, multi-agent frameworks, and end-to-end commercial systems. Most
systems achieve overall success rates near 0\%, with the best performer
reaching just 5\%. However, given sufficient time, cross-validation by multiple
human testers can achieve a near 100\% success rate. These results demonstrate
that present search agents have critical deficiencies in large-scale
information seeking, underscoring urgent areas for future research and
development in agentic search. Our dataset, evaluation pipeline, and benchmark
results have been publicly released at https://widesearch-seed.github.io/