Free4D: Generierung von 4D-Szenen ohne Anpassung mit räumlich-zeitlicher Konsistenz

papers.abstract

Wir präsentieren Free4D, ein neuartiges, abstimmungsfreies Framework für die 4D-Szenengenerierung aus einem einzelnen Bild. Bestehende Methoden konzentrieren sich entweder auf die Objektebene, was die Szenengenerierung unmöglich macht, oder sie verlassen sich auf groß angelegte Multi-View-Videodatensätze für aufwändiges Training, wobei die Generalisierungsfähigkeit aufgrund der Knappheit von 4D-Szenendaten begrenzt ist. Im Gegensatz dazu besteht unser zentraler Ansatz darin, vortrainierte Foundation-Modelle für eine konsistente 4D-Szenendarstellung zu destillieren, was vielversprechende Vorteile wie Effizienz und Generalisierbarkeit bietet. 1) Um dies zu erreichen, animieren wir zunächst das Eingabebild mithilfe von Bild-zu-Video-Diffusionsmodellen, gefolgt von einer 4D-geometrischen Strukturinitialisierung. 2) Um diese grobe Struktur in räumlich-zeitlich konsistente Multiview-Videos umzuwandeln, entwickeln wir einen adaptiven Leitmechanismus mit einer punktgesteuerten Denoising-Strategie für räumliche Konsistenz und eine neuartige latente Ersetzungsstrategie für zeitliche Kohärenz. 3) Um diese generierten Beobachtungen in eine konsistente 4D-Darstellung zu überführen, schlagen wir eine modulationsbasierte Verfeinerung vor, um Inkonsistenzen zu mildern und gleichzeitig die generierten Informationen vollständig zu nutzen. Die resultierende 4D-Darstellung ermöglicht eine echtzeitfähige, steuerbare Darstellung und markiert einen bedeutenden Fortschritt in der 4D-Szenengenerierung basierend auf einem einzelnen Bild.

English

We present Free4D, a novel tuning-free framework for 4D scene generation from a single image. Existing methods either focus on object-level generation, making scene-level generation infeasible, or rely on large-scale multi-view video datasets for expensive training, with limited generalization ability due to the scarcity of 4D scene data. In contrast, our key insight is to distill pre-trained foundation models for consistent 4D scene representation, which offers promising advantages such as efficiency and generalizability. 1) To achieve this, we first animate the input image using image-to-video diffusion models followed by 4D geometric structure initialization. 2) To turn this coarse structure into spatial-temporal consistent multiview videos, we design an adaptive guidance mechanism with a point-guided denoising strategy for spatial consistency and a novel latent replacement strategy for temporal coherence. 3) To lift these generated observations into consistent 4D representation, we propose a modulation-based refinement to mitigate inconsistencies while fully leveraging the generated information. The resulting 4D representation enables real-time, controllable rendering, marking a significant advancement in single-image-based 4D scene generation.

Free4D: Generierung von 4D-Szenen ohne Anpassung mit räumlich-zeitlicher Konsistenz

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

papers.abstract

Support