ChatPaper.aiChatPaper

Free4D : Génération de scènes 4D sans réglage avec cohérence spatio-temporelle

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

March 26, 2025
Auteurs: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI

Résumé

Nous présentons Free4D, un nouveau cadre sans ajustement pour la génération de scènes 4D à partir d'une seule image. Les méthodes existantes se concentrent soit sur la génération au niveau des objets, rendant la génération au niveau de la scène impossible, soit s'appuient sur des ensembles de données vidéo multi-vues à grande échelle pour un entraînement coûteux, avec une capacité de généralisation limitée en raison de la rareté des données de scènes 4D. En revanche, notre idée clé est de distiller des modèles de fond pré-entraînés pour une représentation cohérente de scènes 4D, offrant des avantages prometteurs tels que l'efficacité et la généralisabilité. 1) Pour y parvenir, nous animons d'abord l'image d'entrée à l'aide de modèles de diffusion image-à-vidéo, suivis d'une initialisation de la structure géométrique 4D. 2) Pour transformer cette structure grossière en vidéos multi-vues cohérentes dans l'espace et le temps, nous concevons un mécanisme de guidage adaptatif avec une stratégie de débruitage guidée par points pour la cohérence spatiale et une nouvelle stratégie de remplacement latent pour la cohérence temporelle. 3) Pour élever ces observations générées en une représentation 4D cohérente, nous proposons un raffinement basé sur la modulation pour atténuer les incohérences tout en exploitant pleinement les informations générées. La représentation 4D résultante permet un rendu en temps réel et contrôlable, marquant une avancée significative dans la génération de scènes 4D basée sur une seule image.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from a single image. Existing methods either focus on object-level generation, making scene-level generation infeasible, or rely on large-scale multi-view video datasets for expensive training, with limited generalization ability due to the scarcity of 4D scene data. In contrast, our key insight is to distill pre-trained foundation models for consistent 4D scene representation, which offers promising advantages such as efficiency and generalizability. 1) To achieve this, we first animate the input image using image-to-video diffusion models followed by 4D geometric structure initialization. 2) To turn this coarse structure into spatial-temporal consistent multiview videos, we design an adaptive guidance mechanism with a point-guided denoising strategy for spatial consistency and a novel latent replacement strategy for temporal coherence. 3) To lift these generated observations into consistent 4D representation, we propose a modulation-based refinement to mitigate inconsistencies while fully leveraging the generated information. The resulting 4D representation enables real-time, controllable rendering, marking a significant advancement in single-image-based 4D scene generation.

Summary

AI-Generated Summary

PDF212March 31, 2025