ChatPaper.aiChatPaper

Free4D: Tuning-vrije 4D-scènegeneratie met ruimtelijk-temporele consistentie

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

March 26, 2025
Auteurs: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI

Samenvatting

We presenteren Free4D, een nieuw afstemningsvrij raamwerk voor 4D-scènegeneratie vanuit een enkele afbeelding. Bestaande methodes richten zich ofwel op objectniveau-generatie, waardoor scèneniveau-generatie onhaalbaar wordt, of vertrouwen op grootschalige multi-view videodatasets voor kostbare training, met beperkte generalisatiecapaciteit vanwege de schaarste aan 4D-scènedata. In tegenstelling hiermee is onze belangrijkste inzicht het destilleren van vooraf getrainde foundation-modellen voor consistente 4D-scèneweergave, wat veelbelovende voordelen biedt zoals efficiëntie en generaliseerbaarheid. 1) Om dit te bereiken, animeren we eerst de invoerafbeelding met behulp van beeld-naar-video diffusiemodellen, gevolgd door 4D geometrische structuurinitialisatie. 2) Om deze grove structuur om te zetten in ruimtelijk-temporeel consistente multiview video's, ontwerpen we een adaptief begeleidingsmechanisme met een puntgeleide denoisingstrategie voor ruimtelijke consistentie en een nieuwe latente vervangingsstrategie voor temporele samenhang. 3) Om deze gegenereerde observaties om te zetten in een consistente 4D-weergave, stellen we een op modulatie gebaseerde verfijning voor om inconsistenties te verminderen terwijl de gegenereerde informatie volledig wordt benut. De resulterende 4D-weergave maakt real-time, bestuurbaar renderen mogelijk, wat een significante vooruitgang markeert in 4D-scènegeneratie op basis van een enkele afbeelding.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from a single image. Existing methods either focus on object-level generation, making scene-level generation infeasible, or rely on large-scale multi-view video datasets for expensive training, with limited generalization ability due to the scarcity of 4D scene data. In contrast, our key insight is to distill pre-trained foundation models for consistent 4D scene representation, which offers promising advantages such as efficiency and generalizability. 1) To achieve this, we first animate the input image using image-to-video diffusion models followed by 4D geometric structure initialization. 2) To turn this coarse structure into spatial-temporal consistent multiview videos, we design an adaptive guidance mechanism with a point-guided denoising strategy for spatial consistency and a novel latent replacement strategy for temporal coherence. 3) To lift these generated observations into consistent 4D representation, we propose a modulation-based refinement to mitigate inconsistencies while fully leveraging the generated information. The resulting 4D representation enables real-time, controllable rendering, marking a significant advancement in single-image-based 4D scene generation.

Summary

AI-Generated Summary

PDF212March 31, 2025