WebWorld: Een grootschalig wereldmodel voor de training van webagentschappen

Samenvatting

Webagents hebben enorme hoeveelheden trajectgegevens nodig om te generaliseren, maar training in de echte wereld wordt beperkt door netwerklatentie, rate limits en veiligheidsrisico's. Wij introduceren de WebWorld-serie, de eerste open-web simulator die op grote schaal is getraind. Terwijl bestaande simulators beperkt zijn tot gesloten omgevingen met duizenden trajecten, benut WebWorld een schaalbare datapijplijn om te trainen op meer dan 1 miljoen open-web interacties, met ondersteuning voor redeneren, multi-formaat data en langetermijnsimulaties van 30+ stappen. Voor intrinsieke evaluatie introduceren we WebWorld-Bench met dubbele metrieken over negen dimensies, waarbij WebWorld simulatieniveau bereikt dat vergelijkbaar is met Gemini-3-Pro. Voor extrinsieke evaluatie verbetert Qwen3-14B, getraind op WebWorld-gesynthetiseerde trajecten, met +9,2% op WebArena en bereikt daarmee prestaties vergelijkbaar met GPT-4o. WebWorld maakt effectieve inference-time zoekopdrachten mogelijk en overtreft GPT-5 als wereldmodel. Naast websimulatie vertoont WebWorld domeinoverschrijdende generalisatie naar code, GUI- en spelomgevingen, en biedt het een reproduceerbaar recept voor de constructie van wereldmodellen.

English

Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.

WebWorld: Een grootschalig wereldmodel voor de training van webagentschappen

WebWorld: A Large-Scale World Model for Web Agent Training

Samenvatting

Support