WebWorld: Un Modello del Mondo su Larga Scala per l'Addestramento di Agenti Web

Abstract

Gli agenti web richiedono traiettorie massive per generalizzare, ma l'addestramento nel mondo reale è limitato da latenza di rete, limiti di frequenza e rischi per la sicurezza. Introduciamo la serie WebWorld, il primo simulatore open-web addestrato su larga scala. Mentre i simulatori esistenti sono limitati ad ambienti chiusi con migliaia di traiettorie, WebWorld sfrutta una pipeline di dati scalabile per addestrarsi su oltre 1 milione di interazioni open-web, supportando ragionamento, dati multi-formato e simulazioni a lungo orizzonte di oltre 30 passi. Per la valutazione intrinseca, introduciamo WebWorld-Bench con metriche duali che coprono nove dimensioni, dove WebWorld raggiunge prestazioni di simulazione paragonabili a Gemini-3-Pro. Per la valutazione estrinseca, Qwen3-14B addestrato su traiettorie sintetizzate da WebWorld migliora del +9,2% su WebArena, raggiungendo prestazioni comparabili a GPT-4o. WebWorld abilita una ricerca efficace in fase di inferenza, superando GPT-5 come modello mondiale. Oltre alla simulazione web, WebWorld mostra generalizzazione cross-dominio per ambienti di codice, GUI e giochi, fornendo una ricetta replicabile per la costruzione di modelli mondiali.

English

Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.

WebWorld: Un Modello del Mondo su Larga Scala per l'Addestramento di Agenti Web

WebWorld: A Large-Scale World Model for Web Agent Training

Abstract

Support