WebExplorer: Исследование и эволюция для обучения веб-агентов с длительным горизонтом планирования
WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
September 8, 2025
Авторы: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI
Аннотация
Парадигма больших языковых моделей (LLM) всё больше смещается в сторону агентных приложений, где возможности веб-браузинга являются фундаментальными для извлечения информации из различных онлайн-источников. Однако существующие открытые веб-агенты либо демонстрируют ограниченные способности в поиске информации при выполнении сложных задач, либо не имеют прозрачных реализаций. В данной работе мы выявляем, что ключевая проблема заключается в недостатке сложных данных для поиска информации. Чтобы устранить это ограничение, мы представляем WebExplorer: систематический подход к генерации данных, основанный на исследовании с использованием моделей и итеративной эволюции запросов от длинных к коротким. Этот метод создаёт сложные пары "запрос-ответ", требующие многошагового рассуждения и сложной навигации в вебе. Используя наш тщательно отобранный высококачественный набор данных, мы успешно разрабатываем продвинутого веб-агента WebExplorer-8B с помощью контролируемого тонкого настройки, за которым следует обучение с подкреплением. Наша модель поддерживает длину контекста в 128K и до 100 вызовов инструментов, что позволяет решать задачи с длительным горизонтом. На различных бенчмарках для поиска информации WebExplorer-8B демонстрирует наилучшие результаты для своего масштаба. Примечательно, что как модель размером 8B, WebExplorer-8B способна эффективно выполнять поиск в среднем за 16 шагов после обучения с подкреплением, достигая более высокой точности, чем WebSailor-72B на BrowseComp-en/zh, и показывая наилучшие результаты среди моделей до 100B параметров на WebWalkerQA и FRAMES. Помимо этих задач поиска информации, наша модель также демонстрирует сильную обобщающую способность на бенчмарке HLE, несмотря на то, что обучалась только на данных, связанных с вопросами, требующими знаний. Эти результаты подчеркивают наш подход как практический путь к созданию веб-агентов с длительным горизонтом.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward
agentic applications, where web browsing capabilities are fundamental for
retrieving information from diverse online sources. However, existing
open-source web agents either demonstrate limited information-seeking abilities
on complex tasks or lack transparent implementations. In this work, we identify
that the key challenge lies in the scarcity of challenging data for information
seeking. To address this limitation, we introduce WebExplorer: a systematic
data generation approach using model-based exploration and iterative,
long-to-short query evolution. This method creates challenging query-answer
pairs that require multi-step reasoning and complex web navigation. By
leveraging our curated high-quality dataset, we successfully develop advanced
web agent WebExplorer-8B through supervised fine-tuning followed by
reinforcement learning. Our model supports 128K context length and up to 100
tool calling turns, enabling long-horizon problem solving. Across diverse
information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art
performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able
to effectively search over an average of 16 turns after RL training, achieving
higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best
performance among models up to 100B parameters on WebWalkerQA and FRAMES.
Beyond these information-seeking tasks, our model also achieves strong
generalization on the HLE benchmark even though it is only trained on
knowledge-intensive QA data. These results highlight our approach as a
practical path toward long-horizon web agents.