ChatPaper.aiChatPaper

SS4D : Modèle génératif natif 4D via des latents structurés espace-temps

SS4D: Native 4D Generative Model via Structured Spacetime Latents

December 16, 2025
papers.authors: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI

papers.abstract

Nous présentons SS4D, un modèle génératif natif 4D qui synthétise des objets 3D dynamiques directement à partir de vidéos monoculaires. Contraire­ment aux approches antérieures qui construisent des représentations 4D en optimisant des modèles génératifs 3D ou vidéo, nous entraînons un générateur directement sur des données 4D, atteignant ainsi une haute fidélité, une cohérence temporelle et une cohérence structurelle. Au cœur de notre méthode se trouve un ensemble compressé de latents structurés dans l'espace-temps. Plus précisément : (1) Pour pallier la rareté des données d'entraînement 4D, nous nous appuyons sur un modèle pré-entraîné de reconstruction 3D à partir d'une seule image, préservant ainsi une forte cohérence spatiale. (2) La cohérence temporelle est assurée par l'introduction de couches temporelles dédiées qui raisonnent sur les différentes images. (3) Pour permettre un entraînement et une inférence efficaces sur de longues séquences vidéo, nous compressons la séquence latente le long de l'axe temporel à l'aide de convolutions 4D factorisées et de blocs de sous-échantillonnage temporel. De plus, nous utilisons une stratégie d'entraînement soigneusement conçue pour renforcer la robustesse aux occlusions.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion
PDF91December 18, 2025