WebWorld : Un modèle de monde à grande échelle pour l'entraînement d'agents web
WebWorld: A Large-Scale World Model for Web Agent Training
February 16, 2026
papers.authors: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI
papers.abstract
Les agents web nécessitent des trajectoires massives pour généraliser, mais leur entraînement en conditions réelles est limité par la latence réseau, les limites de débit et les risques de sécurité. Nous présentons la série WebWorld, premier simulateur web ouvert entraîné à grande échelle. Alors que les simulateurs existants se restreignent à des environnements fermés avec des milliers de trajectoires, WebWorld exploite un pipeline de données scalable pour s'entraîner sur plus d'un million d'interactions web ouvertes, prenant en charge le raisonnement, les données multi-formats et les simulations à long horizon de plus de 30 étapes. Pour l'évaluation intrinsèque, nous introduisons WebWorld-Bench avec des métriques doubles couvrant neuf dimensions, où WebWorld atteint des performances de simulation comparables à Gemini-3-Pro. Pour l'évaluation extrinsèque, Qwen3-14B entraîné sur des trajectoires synthétisées par WebWorld améliore ses résultats de +9,2 % sur WebArena, atteignant des performances comparables à GPT-4o. WebWorld permet une recherche efficace lors de l'inférence, surpassant GPT-5 en tant que modèle du monde. Au-delà de la simulation web, WebWorld présente une généralisation transdomaine aux environnements de code, d'interface graphique et de jeux, offrant une méthodologie reproductible pour la construction de modèles du monde.
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.