ChatPaper.aiChatPaper

SS4D: Modelo Generativo Nativo 4D via Espaço-Tempo Latente Estruturado

SS4D: Native 4D Generative Model via Structured Spacetime Latents

December 16, 2025
Autores: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI

Resumo

Apresentamos o SS4D, um modelo generativo nativo 4D que sintetiza objetos 3D dinâmicos diretamente a partir de vídeo monocular. Diferente de abordagens anteriores que constroem representações 4D otimizando modelos generativos 3D ou de vídeo, treinamos um gerador diretamente em dados 4D, alcançando alta fidelidade, coerência temporal e consistência estrutural. O cerne de nosso método é um conjunto comprimido de latentes estruturados no espaço-tempo. Especificamente, (1) Para contornar a escassez de dados de treinamento 4D, partimos de um modelo pré-treinado de imagem única para 3D, preservando uma forte consistência espacial. (2) A coerência temporal é imposta pela introdução de camadas temporais dedicadas que realizam inferência entre quadros. (3) Para viabilizar treinamento e inferência eficientes em sequências de vídeo longas, comprimimos a sequência latente ao longo do eixo temporal usando convoluções 4D fatoradas e blocos de redução de amostragem temporal. Adicionalmente, empregamos uma estratégia de treinamento cuidadosamente projetada para aumentar a robustez contra oclusão.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion
PDF141February 27, 2026