4Diffusion : Modèle de diffusion vidéo multi-vues pour la génération 4D
4Diffusion: Multi-view Video Diffusion Model for 4D Generation
May 31, 2024
Auteurs: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Résumé
Les méthodes actuelles de génération 4D ont atteint une efficacité remarquable grâce à l'utilisation de modèles génératifs avancés basés sur la diffusion. Cependant, ces méthodes manquent de modélisation spatio-temporelle multi-vues et rencontrent des difficultés à intégrer des connaissances a priori diverses provenant de multiples modèles de diffusion, ce qui entraîne des incohérences temporelles dans l'apparence et des scintillements. Dans cet article, nous proposons une nouvelle pipeline de génération 4D, nommée 4Diffusion, visant à générer du contenu 4D spatio-temporellement cohérent à partir d'une vidéo monoculaire. Nous concevons d'abord un modèle de diffusion unifié adapté à la génération de vidéos multi-vues en intégrant un module de mouvement apprenable dans un modèle de diffusion 3D figé, afin de capturer les corrélations spatio-temporelles multi-vues. Après entraînement sur un ensemble de données soigneusement sélectionné, notre modèle de diffusion acquiert une cohérence temporelle raisonnable et préserve intrinsèquement la généralisabilité et la cohérence spatiale du modèle de diffusion 3D. Par la suite, nous proposons une fonction de perte de distillation de score 4D-aware, basée sur notre modèle de diffusion de vidéos multi-vues, pour optimiser une représentation 4D paramétrée par un NeRF dynamique. Cela vise à éliminer les divergences issues de multiples modèles de diffusion, permettant ainsi de générer du contenu 4D spatio-temporellement cohérent. De plus, nous concevons une perte d'ancrage pour améliorer les détails d'apparence et faciliter l'apprentissage du NeRF dynamique. Des expériences qualitatives et quantitatives approfondies démontrent que notre méthode surpasse les performances des méthodes précédentes.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid
of advanced diffusion generative models. However, these methods lack multi-view
spatial-temporal modeling and encounter challenges in integrating diverse prior
knowledge from multiple diffusion models, resulting in inconsistent temporal
appearance and flickers. In this paper, we propose a novel 4D generation
pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent
4D content from a monocular video. We first design a unified diffusion model
tailored for multi-view video generation by incorporating a learnable motion
module into a frozen 3D-aware diffusion model to capture multi-view
spatial-temporal correlations. After training on a curated dataset, our
diffusion model acquires reasonable temporal consistency and inherently
preserves the generalizability and spatial consistency of the 3D-aware
diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling
loss, which is based on our multi-view video diffusion model, to optimize 4D
representation parameterized by dynamic NeRF. This aims to eliminate
discrepancies arising from multiple diffusion models, allowing for generating
spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to
enhance the appearance details and facilitate the learning of dynamic NeRF.
Extensive qualitative and quantitative experiments demonstrate that our method
achieves superior performance compared to previous methods.Summary
AI-Generated Summary