WideSearch: Бенчмаркинг агентного широкого поиска информации

Аннотация

От профессиональных исследований до повседневного планирования многие задачи ограничиваются масштабным поиском информации, который скорее повторяющийся, чем когнитивно сложный. С быстрым развитием крупных языковых моделей (LLM) автоматизированные поисковые агенты, основанные на LLM, предлагают перспективное решение для освобождения людей от этой утомительной работы. Однако способность этих агентов выполнять такой "ширококонтекстный" сбор информации надежно и полно остается в значительной степени неоцененной из-за отсутствия подходящих бенчмарков. Чтобы устранить этот пробел, мы представляем WideSearch — новый бенчмарк, разработанный для оценки надежности агентов в задачах масштабного сбора информации. Бенчмарк включает 200 вручную отобранных вопросов (100 на английском, 100 на китайском) из более чем 15 различных областей, основанных на реальных пользовательских запросах. Каждая задача требует от агентов сбора масштабной атомарной информации, которую можно объективно проверить по отдельности, и организации ее в структурированный вывод. Строгий пятиэтапный процесс контроля качества обеспечивает сложность, полноту и проверяемость набора данных. Мы тестируем более 10 современных поисковых систем, включая одноагентные, многоагентные фреймворки и коммерческие системы с полным циклом. Большинство систем демонстрируют общий уровень успешности, близкий к 0\%, при этом лучший результат составляет всего 5\%. Однако при достаточном времени перекрестная проверка несколькими тестировщиками-людьми может достичь почти 100\% успешности. Эти результаты показывают, что современные поисковые агенты имеют серьезные недостатки в масштабном поиске информации, что подчеркивает актуальные направления для будущих исследований и разработок в области агентного поиска. Наш набор данных, процесс оценки и результаты бенчмарка публично доступны по адресу https://widesearch-seed.github.io/.

English

From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/

WideSearch: Бенчмаркинг агентного широкого поиска информации

WideSearch: Benchmarking Agentic Broad Info-Seeking

Аннотация

Support