ChatPaper.aiChatPaper

SS4D: Inheems 4D-generatief model via gestructureerde ruimtetijd-latenten

SS4D: Native 4D Generative Model via Structured Spacetime Latents

December 16, 2025
Auteurs: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI

Samenvatting

Wij presenteren SS4D, een native 4D-generatief model dat dynamische 3D-objecten direct synthetiseert uit monovideo. In tegenstelling tot eerdere benaderingen die 4D-representaties construeren door optimalisatie over 3D- of videogeneratieve modellen, trainen wij een generator rechtstreeks op 4D-data, waardoor hoge kwaliteit, temporele coherentie en structurele consistentie worden bereikt. De kern van onze methode vormt een gecomprimeerde set gestructureerde ruimtetijd-latente variabelen. Concreet: (1) Om het gebrek aan 4D-trainingsdata te ondervangen, bouwen wij voort op een voorgetraind single-image-to-3D-model, waarbij sterke ruimtelijke consistentie behouden blijft. (2) Temporele coherentie wordt afgedwongen door de introductie van speciale temporale lagen die relaties tussen frames modelleren. (3) Om efficiënte training en inferentie over lange videosequenties mogelijk te maken, comprimeren wij de latente sequentie langs de temporele as met behulp van gefactoriseerde 4D-convoluties en temporele downsampling-blokken. Daarnaast hanteren wij een zorgvuldig ontworpen trainingsstrategie om de robuustheid tegen occlusie te vergroten.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion
PDF91December 18, 2025