WorldCam: カメラ姿勢を統一的幾何表現とするインタラクティブな自己回帰的3Dゲーミングワールド
WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation
March 17, 2026
著者: Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou
cs.AI
要旨
ビデオ拡散トランスフォーマーの最近の進歩により、ユーザーが生成された環境を長期的に探索できるインタラクティブなゲームワールドモデルが実現可能となった。しかし、既存の手法は精密なアクション制御と長期的な3D一貫性に課題を残している。従来研究の多くはユーザーアクションを抽象的な条件付け信号として扱い、アクションと3D世界の間の基本的な幾何学的結合を見落としてきた。すなわち、アクションは相対的なカメラ運動を誘発し、これが累積されて3D世界内の大域的なカメラ姿勢を形成するのである。本論文では、カメラ姿勢を統一的な幾何学的表現として確立し、即時のアクション制御と長期的な3D一貫性を共同で基礎付ける。まず、物理ベースの連続的アクション空間を定義し、ユーザー入力をリー代数で表現することで精密な6自由度カメラ姿勢を導出する。これをカメラ埋め込み器を介して生成モデルに注入し、正確なアクション連携を保証する。次に、大域的なカメラ姿勢を空間インデックスとして用いて関連する過去の観測を取得し、長期的ナビゲーション中の位置再訪を幾何学的に一貫して行えるようにする。本研究を支援するため、カメラ軌道とテキスト記述が注釈付けされた3,000分に及ぶ実践的な人間のゲームプレイからなる大規模データセットを導入する。大規模な実験により、本手法がアクション制御性、長期的視覚品質、3D空間一貫性において、最先端のインタラクティブゲームワールドモデルを大幅に上回ることを示す。
English
Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.