ChatPaper.aiChatPaper

4Diffusion: Multi-view Video Diffusion Model voor 4D-generatie

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31, 2024
Auteurs: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Samenvatting

Huidige 4D-generatiemethoden hebben opmerkelijke resultaten behaald met behulp van geavanceerde diffusiegeneratieve modellen. Deze methoden missen echter multi-view ruimtelijk-temporele modellering en ondervinden problemen bij het integreren van diverse voorkennis uit meerdere diffusiemodellen, wat resulteert in inconsistente temporele verschijning en flikkeringen. In dit artikel stellen we een nieuwe 4D-generatiepijplijn voor, genaamd 4Diffusion, die gericht is op het genereren van ruimtelijk-temporeel consistente 4D-inhoud vanuit een monovideo. We ontwerpen eerst een geünificeerd diffusiemodel dat is afgestemd op multi-view videogeneratie door een leerbare bewegingsmodule te integreren in een bevroren 3D-bewust diffusiemodel om multi-view ruimtelijk-temporele correlaties vast te leggen. Na training op een gecureerde dataset verkrijgt ons diffusiemodel redelijke temporele consistentie en behoudt het inherent de generaliseerbaarheid en ruimtelijke consistentie van het 3D-bewuste diffusiemodel. Vervolgens stellen we een 4D-bewuste Score Distillation Sampling-verlies voor, dat gebaseerd is op ons multi-view videodiffusiemodel, om 4D-representatie geoptimaliseerd door dynamische NeRF te verbeteren. Dit is gericht op het elimineren van discrepanties die ontstaan uit meerdere diffusiemodellen, waardoor ruimtelijk-temporeel consistente 4D-inhoud kan worden gegenereerd. Bovendien ontwikkelen we een ankerverlies om de verschijningsdetails te versterken en het leren van dynamische NeRF te vergemakkelijken. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat onze methode superieure prestaties behaalt in vergelijking met eerdere methoden.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.
PDF151February 7, 2026