EvoBrowseComp: Бенчмаркинг поисковых агентов на эволюционирующих знаниях

Аннотация

Поисковые агенты — большие языковые модели, дополненные инструментами поиска — усилили потребность в эталонных тестах, устойчивых к устареванию. Существующие тесты, такие как BrowseComp, опираются на статические знания, что делает их уязвимыми к загрязнению тестовых данных и параметрическому запоминанию. В результате модели могут достигать высоких показателей за счёт воспроизведения фактов, а не подлинного поиска, скрывая истинную компетентность в навигации через логические сокращения. В данной статье мы представляем EvoBrowseComp — эволюционирующий тест из 400 сложных вопросов на английском и 400 на китайском языках, свободных от загрязнения, синтезированных с помощью обхода живого веба. Для сбора таких вопросов мы разработали коллаборативную схему из трёх агентов: (1) агент синтеза вопросов-ответов, извлекающий свежие знания из живого веба для создания пар «вопрос—ответ»; (2) агент фильтрации информации, отсеивающий извлечённые знания по критериям достоверности и популярности, чтобы заблокировать параметрические сокращения; и (3) агент высокоуровневого руководства, формализующий вопросы в виде графов рассуждений для уменьшения логической избыточности и сокращений в синтезированных парах. Благодаря полностью автоматизированному синтезу EvoBrowseComp может регулярно обновляться, предотвращая загрязнение данных и сохраняя временную актуальность. Обширные эксперименты подтверждают его высокую сложность, требующую широкого горизонтального поиска. Данный подход задаёт масштабируемую парадигму для автоматически обновляемых эталонных тестов высокой сложности, идущих в ногу как с эволюцией мировых знаний, так и с развитием возможностей агентов.

English

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models can achieve high scores through fact recall rather than genuine retrieval, obscuring true browsing competence via reasoning shortcuts. In this paper, we introduce EvoBrowseComp, an evolving benchmark of 400 English and 400 Chinese contamination-free complex questions synthesized via live-web traversal. To collect these questions, we design a three-agent collaborative framework: (1) a QA synthesis agent that retrieves fresh knowledge from the live web to synthesize QA pairs; (2) an information filtering agent that filters retrieved knowledge in terms of credibility and popularity to block parametric shortcuts; and (3) a high-level guidance agent that formalizes questions into reasoning graphs to reduce logical redundancy and shortcuts in synthesized QA pairs. Because the framework supports fully automated synthesis, EvoBrowseComp can be regularly updated to prevent data contamination and maintain temporal freshness. Extensive experiments confirm its great difficulty, requiring broad horizontal search. It establishes a scalable paradigm for auto-updatable, high-difficulty benchmarking that keeps pace with both evolving world knowledge and advancing agent capabilities.