SS4D: 構造化時空間潜在変数によるネイティブ4D生成モデル
SS4D: Native 4D Generative Model via Structured Spacetime Latents
December 16, 2025
著者: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI
要旨
我々はSS4Dを提案する。これは単眼ビデオから動的3Dオブジェクトを直接合成するネイティブ4D生成モデルである。3Dやビデオ生成モデルを最適化して4D表現を構築する従来手法とは異なり、我々は4Dデータ上で直接生成器を学習することで、高精細度、時間的一貫性、構造的一貫性を実現する。本手法の核心は、構造化された時空間潜在変数の圧縮集合である。具体的には、(1) 4D学習データの不足に対処するため、強固な空間的一貫性を保持する事前学習済み単一画像-to-3Dモデルを基盤とする。(2) フレーム間を考慮する専用時間レイヤーを導入し時間的一貫性を強化する。(3) 長時間ビデオシーケンスにおける効率的な学習と推論を支援するため、因子分解4D畳み込みと時間的ダウンサンプリングブロックを用いて時間軸に沿った潜在シーケンスを圧縮する。さらに、オクルージョンに対する頑健性を高めるため、注意深く設計された学習戦略を採用する。
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion