WebWorld: Ein großskaliges Weltmodell für das Training von Web-Agenten
WebWorld: A Large-Scale World Model for Web Agent Training
February 16, 2026
papers.authors: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI
papers.abstract
Web-Agenten benötigen umfangreiche Trajektorien zur Generalisierung, doch das Training in der realen Welt wird durch Netzwerklatenz, Ratenbegrenzungen und Sicherheitsrisiken eingeschränkt. Wir stellen die WebWorld-Serie vor, den ersten Open-Web-Simulator, der in großem Maßstab trainiert wurde. Während bestehende Simulatoren auf abgeschlossene Umgebungen mit Tausenden von Trajektorien beschränkt sind, nutzt WebWorld eine skalierbare Datenpipeline, um mit über 1 Million Open-Web-Interaktionen zu trainieren, und unterstützt dabei Reasoning, Multi-Format-Daten sowie langfristige Simulationen mit über 30 Schritten. Für die intrinsische Evaluation führen wir WebWorld-Bench mit dualen Metriken über neun Dimensionen ein, wobei WebWorld eine mit Gemini-3-Pro vergleichbare Simulationsleistung erzielt. Für die extrinsische Evaluation verbessert sich Qwen3-14B, das auf WebWorld-synthetisierten Trajektorien trainiert wurde, um +9,2 % auf WebArena und erreicht eine mit GPT-4o vergleichbare Leistung. WebWorld ermöglicht eine effektive Inferenzzeitsuche und übertrifft GPT-5 als Weltmodell. Über die Web-Simulation hinaus zeigt WebWorld domänenübergreifende Generalisierungsfähigkeiten für Code-, GUI- und Spielumgebungen und bietet damit eine reproduzierbare Methode zur Konstruktion von Weltmodellen.
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.