ChatPaper.aiChatPaper

SS4D: Нативная 4D-генеративная модель с использованием структурированных пространственно-временных латентных переменных

SS4D: Native 4D Generative Model via Structured Spacetime Latents

December 16, 2025
Авторы: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI

Аннотация

Мы представляем SS4D — нативную 4D-генеративную модель, которая синтезирует динамические 3D-объекты непосредственно из моноскопического видео. В отличие от предыдущих подходов, конструирующих 4D-представления через оптимизацию на основе 3D- или видео-генеративных моделей, мы обучаем генератор напрямую на 4D-данных, достигая высокой точности, временной согласованности и структурной целостности. В основе нашего метода лежит сжатый набор структурированных пространственно-временных латентных переменных. А именно: (1) Для решения проблемы недостатка 4D-данных для обучения мы используем предварительно обученную модель для генерации 3D из одного изображения, сохраняя высокую пространственную согласованность. (2) Временная согласованность обеспечивается за счёт введения специализированных временных слоёв, которые анализируют информацию между кадрами. (3) Для эффективного обучения и вывода на длинных видео-последовательностях мы сжимаем латентную последовательность вдоль временной оси с помощью факторизованных 4D-свёрток и блоков временной субдискретизации. Кроме того, мы применяем тщательно разработанную стратегию обучения для повышения устойчивости к окклюзии.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion
PDF91December 18, 2025