Free4D: Generación de Escenas 4D sin Ajustes con Consistencia Espacio-Temporal
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
March 26, 2025
Autores: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI
Resumen
Presentamos Free4D, un novedoso marco de trabajo sin ajuste para la generación de escenas 4D a partir de una sola imagen. Los métodos existentes se centran en la generación a nivel de objeto, lo que hace inviable la generación a nivel de escena, o dependen de grandes conjuntos de datos de vídeo multivista para un entrenamiento costoso, con una capacidad de generalización limitada debido a la escasez de datos de escenas 4D. En contraste, nuestra idea clave es destilar modelos de base preentrenados para obtener una representación consistente de escenas 4D, lo que ofrece ventajas prometedoras como la eficiencia y la generalización. 1) Para lograrlo, primero animamos la imagen de entrada utilizando modelos de difusión de imagen a vídeo, seguido de una inicialización de la estructura geométrica 4D. 2) Para convertir esta estructura aproximada en vídeos multivista espacial-temporalmente consistentes, diseñamos un mecanismo de guía adaptativa con una estrategia de eliminación de ruido guiada por puntos para la consistencia espacial y una novedosa estrategia de reemplazo latente para la coherencia temporal. 3) Para elevar estas observaciones generadas a una representación 4D consistente, proponemos un refinamiento basado en modulación para mitigar las inconsistencias mientras se aprovecha al máximo la información generada. La representación 4D resultante permite una representación en tiempo real y controlable, marcando un avance significativo en la generación de escenas 4D basada en una sola imagen.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from
a single image. Existing methods either focus on object-level generation,
making scene-level generation infeasible, or rely on large-scale multi-view
video datasets for expensive training, with limited generalization ability due
to the scarcity of 4D scene data. In contrast, our key insight is to distill
pre-trained foundation models for consistent 4D scene representation, which
offers promising advantages such as efficiency and generalizability. 1) To
achieve this, we first animate the input image using image-to-video diffusion
models followed by 4D geometric structure initialization. 2) To turn this
coarse structure into spatial-temporal consistent multiview videos, we design
an adaptive guidance mechanism with a point-guided denoising strategy for
spatial consistency and a novel latent replacement strategy for temporal
coherence. 3) To lift these generated observations into consistent 4D
representation, we propose a modulation-based refinement to mitigate
inconsistencies while fully leveraging the generated information. The resulting
4D representation enables real-time, controllable rendering, marking a
significant advancement in single-image-based 4D scene generation.Summary
AI-Generated Summary