ChatPaper.aiChatPaper

SS4D: Modello Generativo 4D Nativo tramite Latenze Strutturate Spazio-Temporali

SS4D: Native 4D Generative Model via Structured Spacetime Latents

December 16, 2025
Autori: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI

Abstract

Presentiamo SS4D, un modello generativo nativo 4D che sintetizza oggetti 3D dinamici direttamente da video monoculare. A differenza degli approcci precedenti che costruiscono rappresentazioni 4D ottimizzando modelli generativi 3D o video, noi addestriamo un generatore direttamente su dati 4D, raggiungendo alta fedeltà, coerenza temporale e consistenza strutturale. Il cuore del nostro metodo è un insieme compresso di latenti spazio-temporali strutturati. Nello specifico: (1) Per affrontare la scarsità di dati di addestramento 4D, ci basiamo su un modello pre-addestrato da immagine singola a 3D, preservando una forte consistenza spaziale. (2) La coerenza temporale è imposta introducendo layer temporali dedicati che operano ragionamenti tra i frame. (3) Per supportare addestramento e inferenza efficienti su sequenze video lunghe, comprimiamo la sequenza latente lungo l'asse temporale usando convoluzioni 4D fattorizzate e blocchi di downsampling temporale. Inoltre, impieghiamo una strategia di addestramento accuratamente progettata per migliorare la robustezza contro le occlusioni.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion
PDF91December 18, 2025