SS4D: 구조화된 시공간 잠재 공간을 통한 네이티브 4D 생성 모델
SS4D: Native 4D Generative Model via Structured Spacetime Latents
December 16, 2025
저자: Zhibing Li, Mengchen Zhang, Tong Wu, Jing Tan, Jiaqi Wang, Dahua Lin
cs.AI
초록
SS4D는 단안 비디오에서 동적인 3D 객체를 직접 합성하는 네이티브 4D 생성 모델을 제안합니다. 3D 또는 비디오 생성 모델을 최적화하여 4D 표현을 구성하는 기존 접근법과 달리, 우리는 4D 데이터에 대해 생성기를 직접 학습시켜 높은 정확도, 시간적 일관성 및 구조적 일관성을 달성합니다. 우리 방법의 핵심은 압축된 구조화된 시공간 잠재 공간 집합입니다. 구체적으로, (1) 4D 학습 데이터의 부족 문제를 해결하기 위해 사전 학습된 단일 이미지-3D 변환 모델을 기반으로 하여 강력한 공간 일관성을 유지합니다. (2) 프레임 간 관계를 추론하는 전용 시간 계층을 도입하여 시간적 일관성을 강화합니다. (3) 긴 비디오 시퀀스에 대한 효율적인 학습과 추론을 지원하기 위해 인수분해된 4D 합성곱과 시간적 다운샘플링 블록을 사용해 시간 축을 따라 잠재 시퀀스를 압축합니다. 또한, 폐색에 대한 강건성을 향상시키기 위해 신중하게 설계된 학습 전략을 사용합니다.
English
We present SS4D, a native 4D generative model that synthesizes dynamic 3D objects directly from monocular video. Unlike prior approaches that construct 4D representations by optimizing over 3D or video generative models, we train a generator directly on 4D data, achieving high fidelity, temporal coherence, and structural consistency. At the core of our method is a compressed set of structured spacetime latents. Specifically, (1) To address the scarcity of 4D training data, we build on a pre-trained single-image-to-3D model, preserving strong spatial consistency. (2) Temporal consistency is enforced by introducing dedicated temporal layers that reason across frames. (3) To support efficient training and inference over long video sequences, we compress the latent sequence along the temporal axis using factorized 4D convolutions and temporal downsampling blocks. In addition, we employ a carefully designed training strategy to enhance robustness against occlusion