웹월드: 웹 에이전트 훈련을 위한 대규모 세계 모델
WebWorld: A Large-Scale World Model for Web Agent Training
February 16, 2026
저자: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu
cs.AI
초록
웹 에이전트는 일반화를 위해 대규모 궤적 데이터가 필요하지만, 실제 환경에서의 학습은 네트워크 지연,速率 제한 및 안전 위험으로 인해 제약을 받습니다. 본 연구에서는 대규모로 훈련된 최초의 오픈 웹 시뮬레이션 환경인 WebWorld 시리즈를 소개합니다. 기존 시뮬레이터가 수천 개의 궤적으로 제한된 폐쇄형 환경에 머물러 있는 반면, WebWorld는 확장 가능한 데이터 파이프라인을 활용하여 100만 건 이상의 오픈 웹 상호작용으로 학습하며, 추론 능력, 다중 형식 데이터 처리, 30단계 이상의 장기 시뮬레이션을 지원합니다. 내적 평가를 위해 9개 차원을 아우르는 이중 지표의 WebWorld-Bench를 도입했으며, WebWorld는 Gemini-3-Pro에 버금가는 시뮬레이션 성능을 달성했습니다. 외적 평가에서는 WebWorld로 합성된 궤적으로 훈련된 Qwen3-14B가 WebArena에서 +9.2% 성능 향상을 보여 GPT-4o에 준하는 수준에 도달했습니다. WebWorld는 효과적인 추론 시점 탐색을 가능하게 하여 세계 모델로서 GPT-5를 능가합니다. 웹 시뮬레이션을 넘어 WebWorld는 코드, GUI, 게임 환경으로의 교차 도메인 일반화 능력을 보여주며, 세계 모델 구축을 위한 재현 가능한 방법론을 제시합니다.
English
Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce WebWorld series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.