ChatPaper.aiChatPaper

SS4D: Modelo Generativo Nativo 4D mediante Latentes Estructurados de Espacio-Tiempo

SS4D: Native 4D Generative Model via Structured Spacetime Latents

December 16, 2025
Autores: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI

Resumen

Presentamos SS4D, un modelo generativo nativo 4D que sintetiza objetos 3D dinámicos directamente a partir de vídeo monocular. A diferencia de enfoques anteriores que construyen representaciones 4D optimizando modelos generativos 3D o de vídeo, entrenamos un generador directamente sobre datos 4D, logrando alta fidelidad, coherencia temporal y consistencia estructural. El núcleo de nuestro método es un conjunto comprimido de latentes estructurados en el espacio-tiempo. Específicamente, (1) Para abordar la escasez de datos de entrenamiento 4D, nos basamos en un modelo preentrenado de imagen única a 3D, preservando una fuerte consistencia espacial. (2) La coherencia temporal se aplica introduciendo capas temporales dedicadas que razonan entre fotogramas. (3) Para permitir un entrenamiento e inferencia eficientes en secuencias de vídeo largas, comprimimos la secuencia latente a lo largo del eje temporal utilizando convoluciones 4D factorizadas y bloques de submuestreo temporal. Además, empleamos una estrategia de entrenamiento cuidadosamente diseñada para mejorar la robustez frente a oclusiones.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion
PDF91December 18, 2025