Vivid-ZOO : Génération de vidéos multi-vues avec un modèle de diffusion
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
Auteurs: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
Résumé
Si les modèles de diffusion ont démontré des performances impressionnantes dans la génération d'images/vidéos 2D, la génération de vidéos multi-vues à partir de texte (Text-to-Multi-view-Video, T2MVid) basée sur la diffusion reste peu explorée. Les nouveaux défis posés par la génération T2MVid résident dans le manque de vidéos multi-vues massivement annotées et dans la complexité de modéliser une telle distribution multidimensionnelle. Pour répondre à ces défis, nous proposons un pipeline innovant basé sur la diffusion qui génère des vidéos multi-vues de haute qualité centrées sur un objet 3D dynamique à partir de texte. Plus précisément, nous décomposons le problème T2MVid en composantes d'espace de vue et de temps. Une telle factorisation nous permet de combiner et de réutiliser des couches de modèles de diffusion pré-entraînés pour les images multi-vues et les vidéos 2D, assurant ainsi la cohérence multi-vue et la cohérence temporelle des vidéos multi-vues générées, tout en réduisant considérablement les coûts d'entraînement. Nous introduisons en outre des modules d'alignement pour aligner les espaces latents des couches issues des modèles de diffusion pré-entraînés pour les images multi-vues et les vidéos 2D, résolvant ainsi l'incompatibilité des couches réutilisées due à l'écart de domaine entre les données 2D et multi-vues. Pour soutenir cette recherche et les travaux futurs, nous contribuons également à un ensemble de données de vidéos multi-vues annotées. Les résultats expérimentaux montrent que notre méthode génère des vidéos multi-vues de haute qualité, présentant des mouvements vifs, une cohérence temporelle et une cohérence multi-vue, pour une variété de prompts textuels.
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.Summary
AI-Generated Summary