WildWorld: 생성형 ARPG를 위한 행동 및 명시적 상태 기반 동적 세계 모델링 대규모 데이터셋
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
March 24, 2026
저자: Zhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
cs.AI
초록
동역학 시스템 이론과 강화 학습은 세계의 진화를 행동에 의해 추동되는 잠재 상태 역학으로 보며, 시각적 관측은 상태에 대한 부분적 정보를 제공합니다. 최근의 비디오 세계 모델은 데이터로부터 이러한 행동 조건부 역학을 학습하려 시도합니다. 그러나 기존 데이터셋은 이 요구사항을 충족시키지 못하는 경우가 많습니다: 일반적으로 다양하고 의미론적으로 의미 있는 행동 공간이 부족하며, 행동이 기저 상태를 매개로 하기보다는 시각적 관측에 직접 연결됩니다. 그 결과, 행동이 픽셀 수준의 변화와 얽히는 경우가 많아 모델이 구조화된 세계 역학을 학습하고 장기간에 걸쳐 일관된 진화를 유지하기 어렵게 만듭니다. 본 논문에서는 사실적인 AAA 액션 롤플레잉 게임(Monster Hunter: Wilds)에서 자동으로 수집된 명시적 상태 주석이 포함된 대규모 행동 조건부 세계 모델링 데이터셋인 WildWorld를 제안합니다. WildWorld는 1억 800만 프레임 이상을 포함하며 이동, 공격, 스킬 시전을 포함한 450개 이상의 행동과 함께 캐릭터 스켈레톤, 세계 상태, 카메라 포즈, 깊이 맵의 프레임 동기화 주석을 특징으로 합니다. 또한 Action Following과 State Alignment를 통해 모델을 평가하기 위한 WildBench를 도출합니다. 광범위한 실험을 통해 의미론적으로 풍부한 행동을 모델링하고 장기적 상태 일관성을 유지하는 데 지속적인 어려움이 있음을 밝혀내며, 상태 인식 비디오 생성의 필요성을 강조합니다. 프로젝트 페이지는 https://shandaai.github.io/wildworld-project/ 입니다.
English
Dynamical systems theory and reinforcement learning view world evolution as latent-state dynamics driven by actions, with visual observations providing partial information about the state. Recent video world models attempt to learn this action-conditioned dynamics from data. However, existing datasets rarely match the requirement: they typically lack diverse and semantically meaningful action spaces, and actions are directly tied to visual observations rather than mediated by underlying states. As a result, actions are often entangled with pixel-level changes, making it difficult for models to learn structured world dynamics and maintain consistent evolution over long horizons. In this paper, we propose WildWorld, a large-scale action-conditioned world modeling dataset with explicit state annotations, automatically collected from a photorealistic AAA action role-playing game (Monster Hunter: Wilds). WildWorld contains over 108 million frames and features more than 450 actions, including movement, attacks, and skill casting, together with synchronized per-frame annotations of character skeletons, world states, camera poses, and depth maps. We further derive WildBench to evaluate models through Action Following and State Alignment. Extensive experiments reveal persistent challenges in modeling semantically rich actions and maintaining long-horizon state consistency, highlighting the need for state-aware video generation. The project page is https://shandaai.github.io/wildworld-project/.