ChatPaper.aiChatPaper

WebWorld: Un Modelo del Mundo a Gran Escala para el Entrenamiento de Agentes Web

WebWorld: A Large-Scale World Model for Web Agent Training

February 16, 2026
Autores: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI

Resumen

Los agentes web requieren trayectorias masivas para generalizar, pero el entrenamiento en entornos reales está limitado por la latencia de red, límites de tasa y riesgos de seguridad. Presentamos la serie WebWorld, el primer simulador de web abierta entrenado a gran escala. Mientras los simuladores existentes se restringen a entornos cerrados con miles de trayectorias, WebWorld aprovecha una canalización de datos escalable para entrenar con más de 1 millón de interacciones en web abierta, soportando razonamiento, datos multi-formato y simulaciones de largo horizonte de más de 30 pasos. Para evaluación intrínseca, presentamos WebWorld-Bench con métricas duales que abarcan nueve dimensiones, donde WebWorld logra un rendimiento de simulación comparable a Gemini-3-Pro. Para evaluación extrínseca, Qwen3-14B entrenado con trayectorias sintetizadas por WebWorld mejora en un +9.2% en WebArena, alcanzando un rendimiento comparable a GPT-4o. WebWorld permite una búsqueda efectiva en tiempo de inferencia, superando a GPT-5 como modelo mundial. Más allá de la simulación web, WebWorld exhibe generalización cruzada a entornos de código, GUI y videojuegos, proporcionando una receta replicable para la construcción de modelos mundiales.
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.
PDF52February 18, 2026