WebWorld: Webエージェント訓練のための大規模世界モデル
WebWorld: A Large-Scale World Model for Web Agent Training
February 16, 2026
著者: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI
要旨
Webエージェントは一般化に大量の軌跡を必要とするが、現実世界でのトレーニングはネットワーク遅延、レート制限、安全リスクによって制約されている。我々は大規模トレーニングされた初のオープンウェブシミュレータであるWebWorldシリーズを提案する。既存のシミュレータが数千の軌跡に限定された閉鎖環境に制限される一方で、WebWorldはスケーラブルなデータパイプラインを活用し、100万以上のオープンウェブインタラクションでトレーニングされ、推論、マルチフォーマットデータ、30ステップ以上の長期シミュレーションをサポートする。本質的評価として、9つの次元にまたがる二重指標からなるWebWorld-Benchを導入し、WebWorldはGemini-3-Proに匹敵するシミュレーション性能を達成する。外在的評価として、WebWorldで合成された軌跡でトレーニングされたQwen3-14Bは、WebArenaにおいて+9.2%の改善を示し、GPT-4oに匹敵する性能に到達する。WebWorldは効果的な推論時検索を可能にし、世界モデルとしてGPT-5を上回る。ウェブシミュレーションを超えて、WebWorldはコード、GUI、ゲーム環境へのクロスドメイン一般化を示し、世界モデル構築のための再現可能な手法を提供する。
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.