Free4D: Geração de Cenas 4D sem Ajustes com Consistência Espaço-Temporal
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
March 26, 2025
Autores: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI
Resumo
Apresentamos o Free4D, uma nova estrutura sem ajuste para geração de cenas 4D a partir de uma única imagem. Os métodos existentes focam na geração em nível de objeto, tornando inviável a geração em nível de cena, ou dependem de grandes conjuntos de dados de vídeos multiview para treinamento caro, com capacidade limitada de generalização devido à escassez de dados de cenas 4D. Em contraste, nossa principal ideia é destilar modelos de base pré-treinados para representação consistente de cenas 4D, o que oferece vantagens promissoras, como eficiência e generalização. 1) Para alcançar isso, primeiro animamos a imagem de entrada usando modelos de difusão de imagem para vídeo, seguido pela inicialização da estrutura geométrica 4D. 2) Para transformar essa estrutura grosseira em vídeos multiview espacial-temporalmente consistentes, projetamos um mecanismo de orientação adaptativa com uma estratégia de redução de ruído guiada por pontos para consistência espacial e uma nova estratégia de substituição latente para coerência temporal. 3) Para elevar essas observações geradas a uma representação 4D consistente, propomos um refinamento baseado em modulação para mitigar inconsistências, aproveitando ao máximo as informações geradas. A representação 4D resultante permite renderização em tempo real e controlável, marcando um avanço significativo na geração de cenas 4D baseada em uma única imagem.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from
a single image. Existing methods either focus on object-level generation,
making scene-level generation infeasible, or rely on large-scale multi-view
video datasets for expensive training, with limited generalization ability due
to the scarcity of 4D scene data. In contrast, our key insight is to distill
pre-trained foundation models for consistent 4D scene representation, which
offers promising advantages such as efficiency and generalizability. 1) To
achieve this, we first animate the input image using image-to-video diffusion
models followed by 4D geometric structure initialization. 2) To turn this
coarse structure into spatial-temporal consistent multiview videos, we design
an adaptive guidance mechanism with a point-guided denoising strategy for
spatial consistency and a novel latent replacement strategy for temporal
coherence. 3) To lift these generated observations into consistent 4D
representation, we propose a modulation-based refinement to mitigate
inconsistencies while fully leveraging the generated information. The resulting
4D representation enables real-time, controllable rendering, marking a
significant advancement in single-image-based 4D scene generation.Summary
AI-Generated Summary