WebWorld: Um Modelo de Mundo em Larga Escala para Treinamento de Agentes Web
WebWorld: A Large-Scale World Model for Web Agent Training
February 16, 2026
Autores: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI
Resumo
Os agentes web exigem trajectórias massivas para generalizar, mas o treino no mundo real é limitado pela latência da rede, limites de taxa e riscos de segurança. Apresentamos a série WebWorld, o primeiro simulador de web aberta treinado em escala. Enquanto os simuladores existentes se restringem a ambientes fechados com milhares de trajectórias, o WebWorld aproveita um *pipeline* de dados escalável para treinar com mais de 1 milhão de interações na web aberta, suportando raciocínio, dados multi-formato e simulações de longo horizonte com 30+ etapas. Para avaliação intrínseca, introduzimos o WebWorld-Bench com métricas duplas abrangendo nove dimensões, onde o WebWorld atinge um desempenho de simulação comparável ao Gemini-3-Pro. Para avaliação extrínseca, o Qwen3-14B treinado com trajectórias sintetizadas pelo WebWorld melhora +9,2% no WebArena, alcançando desempenho comparável ao GPT-4o. O WebWorld permite uma busca eficaz em tempo de inferência, superando o GPT-5 como modelo mundial. Para além da simulação web, o WebWorld exibe generalização transversal para ambientes de código, GUI e jogos, fornecendo uma receita replicável para a construção de modelos mundiais.
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.