WildWorld: 生成型ARPGに向けた行動と明示的状態による動的世界モデリングのための大規模データセット
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
March 24, 2026
著者: Zhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
cs.AI
要旨
力学系理論と強化学習では、世界の進化を、行動によって駆動される潜在状態のダイナミクスと捉え、視覚的観測は状態に関する部分的な情報を提供すると見なします。近年のビデオ世界モデルは、データからこの行動条件付きダイナミクスを学習しようと試みています。しかし、既存のデータセットはこの要件にほとんど適合していません。一般的に、多様で意味論的に有意義な行動空間が欠如しており、行動は基礎となる状態を介するのではなく、視覚的観測に直接結びつけられています。その結果、行動は画素レベルの変化と絡み合いがちで、モデルが構造化された世界のダイナミクスを学習し、長期的な進化において一貫性を維持することを困難にしています。本論文では、写実的なAAAアクションRPG(Monster Hunter: Wilds)から自動収集された、明示的な状態アノテーション付きの大規模行動条件付き世界モデリングデータセット「WildWorld」を提案します。WildWorldは1億800万フレーム以上を含み、移動、攻撃、スキル発動など450以上の行動を特徴とし、キャラクターの骨格、世界状態、カメラポーズ、深度マップのフレーム同期アノテーションを備えています。さらに、Action FollowingとState Alignmentを通じてモデルを評価するWildBenchを導出しました。大規模な実験により、意味的に豊富な行動のモデル化と長期的な状態一貫性の維持において持続的な課題が明らかになり、状態を意識したビデオ生成の必要性が浮き彫りになりました。プロジェクトページはhttps://shandaai.github.io/wildworld-project/です。
English
Dynamical systems theory and reinforcement learning view world evolution as latent-state dynamics driven by actions, with visual observations providing partial information about the state. Recent video world models attempt to learn this action-conditioned dynamics from data. However, existing datasets rarely match the requirement: they typically lack diverse and semantically meaningful action spaces, and actions are directly tied to visual observations rather than mediated by underlying states. As a result, actions are often entangled with pixel-level changes, making it difficult for models to learn structured world dynamics and maintain consistent evolution over long horizons. In this paper, we propose WildWorld, a large-scale action-conditioned world modeling dataset with explicit state annotations, automatically collected from a photorealistic AAA action role-playing game (Monster Hunter: Wilds). WildWorld contains over 108 million frames and features more than 450 actions, including movement, attacks, and skill casting, together with synchronized per-frame annotations of character skeletons, world states, camera poses, and depth maps. We further derive WildBench to evaluate models through Action Following and State Alignment. Extensive experiments reveal persistent challenges in modeling semantically rich actions and maintaining long-horizon state consistency, highlighting the need for state-aware video generation. The project page is https://shandaai.github.io/wildworld-project/.