WebWorld: Um Modelo de Mundo em Larga Escala para Treinamento de Agentes Web

Resumo

Os agentes web exigem trajectórias massivas para generalizar, mas o treino no mundo real é limitado pela latência da rede, limites de taxa e riscos de segurança. Apresentamos a série WebWorld, o primeiro simulador de web aberta treinado em escala. Enquanto os simuladores existentes se restringem a ambientes fechados com milhares de trajectórias, o WebWorld aproveita um *pipeline* de dados escalável para treinar com mais de 1 milhão de interações na web aberta, suportando raciocínio, dados multi-formato e simulações de longo horizonte com 30+ etapas. Para avaliação intrínseca, introduzimos o WebWorld-Bench com métricas duplas abrangendo nove dimensões, onde o WebWorld atinge um desempenho de simulação comparável ao Gemini-3-Pro. Para avaliação extrínseca, o Qwen3-14B treinado com trajectórias sintetizadas pelo WebWorld melhora +9,2% no WebArena, alcançando desempenho comparável ao GPT-4o. O WebWorld permite uma busca eficaz em tempo de inferência, superando o GPT-5 como modelo mundial. Para além da simulação web, o WebWorld exibe generalização transversal para ambientes de código, GUI e jogos, fornecendo uma receita replicável para a construção de modelos mundiais.

English

Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.