VerseCrafter: 4D幾何制御を備えた動的で現実的なビデオ世界モデル
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
January 8, 2026
著者: Sixiao Zheng, Minghao Yin, Wenbo Hu, Xiaoyu Li, Ying Shan, Yanwei Fu
cs.AI
要旨
ビデオ世界モデルは、動的で実世界の環境をシミュレートすることを目指すが、既存手法では、カメラと複数オブジェクトの動きに対する統一的な精密制御を実現するのが困難である。これは、ビデオが本質的に投影された2D画像平面内で動力学を作用させるためである。この隔たりを埋めるため、我々はVerseCrafterを提案する。これは統一された4D幾何学的世界状態内で、カメラとオブジェクトの動力学の両方を明示的かつ一貫して制御可能な、4Dを意識したビデオ世界モデルである。
本手法の核心は、静的な背景点群とオブジェクト毎の3Dガウシアン軌道を通じて世界状態を符号化する、新規の「4D幾何学的制御表現」にある。この表現は、オブジェクトの経路だけでなく、時間経過に伴う確率的な3D占有状態も捉え、剛体のバウンディングボックスやパラメトリックモデルに代わる柔軟でカテゴリに依存しない選択肢を提供する。これらの4D制御信号は、事前学習済みのビデオ拡散モデルへの条件付け信号としてレンダリングされ、指定された動力学を精密に遵守する、高精細で視点整合性のあるビデオ生成を可能にする。
残念ながら、もう一つの大きな課題は、明示的な4D注釈を持つ大規模な学習データの不足である。我々はこの課題に対処するため、実世界のビデオから必要な4D制御情報を抽出する自動データエンジンを開発し、大規模かつ多様なデータセット上でモデルを学習させることを可能にした。
English
Video world models aim to simulate dynamic, real-world environments, yet existing methods struggle to provide unified and precise control over camera and multi-object motion, as videos inherently operate dynamics in the projected 2D image plane. To bridge this gap, we introduce VerseCrafter, a 4D-aware video world model that enables explicit and coherent control over both camera and object dynamics within a unified 4D geometric world state. Our approach is centered on a novel 4D Geometric Control representation, which encodes the world state through a static background point cloud and per-object 3D Gaussian trajectories. This representation captures not only an object's path but also its probabilistic 3D occupancy over time, offering a flexible, category-agnostic alternative to rigid bounding boxes or parametric models. These 4D controls are rendered into conditioning signals for a pretrained video diffusion model, enabling the generation of high-fidelity, view-consistent videos that precisely adhere to the specified dynamics. Unfortunately, another major challenge lies in the scarcity of large-scale training data with explicit 4D annotations. We address this by developing an automatic data engine that extracts the required 4D controls from in-the-wild videos, allowing us to train our model on a massive and diverse dataset.