SS4D: Natives 4D-Generativmodell mittels strukturierter Raumzeit-Latenzen
SS4D: Native 4D Generative Model via Structured Spacetime Latents
December 16, 2025
papers.authors: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI
papers.abstract
Wir stellen SS4D vor, ein natives 4D-Generativmodell, das dynamische 3D-Objekte direkt aus monokularen Videos synthetisiert. Im Gegensatz zu früheren Ansätzen, die 4D-Repräsentationen durch Optimierung auf Basis von 3D- oder Video-Generativmodellen konstruieren, trainieren wir einen Generator direkt auf 4D-Daten und erreichen dabei hohe Detailtreue, zeitliche Kohärenz und strukturelle Konsistenz. Den Kern unserer Methode bildet ein komprimierter Satz strukturierter Raumzeit-Latenzen. Konkret: (1) Um der Knappheit an 4D-Trainingsdaten zu begegnen, bauen wir auf einem vortrainierten Einzelbild-zu-3D-Modell auf und bewahren so eine hohe räumliche Konsistenz. (2) Zeitliche Konsistenz wird durch dedizierte temporale Schichten erzwungen, die Informationen über Bildsequenzen hinweg verarbeiten. (3) Um effizientes Training und Inferenz über lange Videosequenzen zu ermöglichen, komprimieren wir die latente Sequenz entlang der Zeitachse mittels faktorisierter 4D-Faltungen und temporalen Downsampling-Blöcken. Zusätzlich setzen wir eine sorgfältig gestaltete Trainingsstrategie ein, um die Robustheit gegenüber Verdeckungen zu erhöhen.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion