ChatPaper.aiChatPaper

Free4D: Generierung von 4D-Szenen ohne Anpassung mit räumlich-zeitlicher Konsistenz

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

March 26, 2025
Autoren: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI

Zusammenfassung

Wir präsentieren Free4D, ein neuartiges, abstimmungsfreies Framework für die 4D-Szenengenerierung aus einem einzelnen Bild. Bestehende Methoden konzentrieren sich entweder auf die Objektebene, was die Szenengenerierung unmöglich macht, oder sie verlassen sich auf groß angelegte Multi-View-Videodatensätze für aufwändiges Training, wobei die Generalisierungsfähigkeit aufgrund der Knappheit von 4D-Szenendaten begrenzt ist. Im Gegensatz dazu besteht unser zentraler Ansatz darin, vortrainierte Foundation-Modelle für eine konsistente 4D-Szenendarstellung zu destillieren, was vielversprechende Vorteile wie Effizienz und Generalisierbarkeit bietet. 1) Um dies zu erreichen, animieren wir zunächst das Eingabebild mithilfe von Bild-zu-Video-Diffusionsmodellen, gefolgt von einer 4D-geometrischen Strukturinitialisierung. 2) Um diese grobe Struktur in räumlich-zeitlich konsistente Multiview-Videos umzuwandeln, entwickeln wir einen adaptiven Leitmechanismus mit einer punktgesteuerten Denoising-Strategie für räumliche Konsistenz und eine neuartige latente Ersetzungsstrategie für zeitliche Kohärenz. 3) Um diese generierten Beobachtungen in eine konsistente 4D-Darstellung zu überführen, schlagen wir eine modulationsbasierte Verfeinerung vor, um Inkonsistenzen zu mildern und gleichzeitig die generierten Informationen vollständig zu nutzen. Die resultierende 4D-Darstellung ermöglicht eine echtzeitfähige, steuerbare Darstellung und markiert einen bedeutenden Fortschritt in der 4D-Szenengenerierung basierend auf einem einzelnen Bild.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from a single image. Existing methods either focus on object-level generation, making scene-level generation infeasible, or rely on large-scale multi-view video datasets for expensive training, with limited generalization ability due to the scarcity of 4D scene data. In contrast, our key insight is to distill pre-trained foundation models for consistent 4D scene representation, which offers promising advantages such as efficiency and generalizability. 1) To achieve this, we first animate the input image using image-to-video diffusion models followed by 4D geometric structure initialization. 2) To turn this coarse structure into spatial-temporal consistent multiview videos, we design an adaptive guidance mechanism with a point-guided denoising strategy for spatial consistency and a novel latent replacement strategy for temporal coherence. 3) To lift these generated observations into consistent 4D representation, we propose a modulation-based refinement to mitigate inconsistencies while fully leveraging the generated information. The resulting 4D representation enables real-time, controllable rendering, marking a significant advancement in single-image-based 4D scene generation.

Summary

AI-Generated Summary

PDF212March 31, 2025