WebWorld: Крупномасштабная модель мира для обучения веб-агентов
WebWorld: A Large-Scale World Model for Web Agent Training
February 16, 2026
Авторы: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI
Аннотация
Веб-агентам для обобщения требуются масштабные траектории, однако обучение в реальных условиях ограничено сетевыми задержками, лимитами запросов и рисками безопасности. Мы представляем серию WebWorld — первый симулятор открытой веб-среды, обученный в крупном масштабе. В то время как существующие симуляторы ограничены закрытыми средами с тысячами траекторий, WebWorld использует масштабируемый конвейер данных для обучения на более чем 1 миллионе взаимодействий в открытой веб-среде, поддерживая логические рассуждения, мультиформатные данные и долгосрочное моделирование свыше 30 шагов. Для внутренней оценки мы представляем WebWorld-Bench с двойными метриками, охватывающими девять измерений, где WebWorld демонстрирует производительность моделирования, сопоставимую с Gemini-3-Pro. При внешней оценке модель Qwen3-14B, обученная на синтезированных WebWorld траекториях, показывает улучшение на +9,2% на WebArena, достигая результатов, сравнимых с GPT-4o. WebWorld обеспечивает эффективный поиск на этапе вывода, превосходя GPT-5 в качестве мировой модели. Помимо веб-симуляции, WebWorld демонстрирует кросс-доменную обобщающую способность для сред, связанных с кодом, графическими интерфейсами и играми, предлагая воспроизводимый метод построения мировых моделей.
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.