Vivid-ZOO : Génération de vidéos multi-vues avec un modèle de diffusion

papers.abstract

Si les modèles de diffusion ont démontré des performances impressionnantes dans la génération d'images/vidéos 2D, la génération de vidéos multi-vues à partir de texte (Text-to-Multi-view-Video, T2MVid) basée sur la diffusion reste peu explorée. Les nouveaux défis posés par la génération T2MVid résident dans le manque de vidéos multi-vues massivement annotées et dans la complexité de modéliser une telle distribution multidimensionnelle. Pour répondre à ces défis, nous proposons un pipeline innovant basé sur la diffusion qui génère des vidéos multi-vues de haute qualité centrées sur un objet 3D dynamique à partir de texte. Plus précisément, nous décomposons le problème T2MVid en composantes d'espace de vue et de temps. Une telle factorisation nous permet de combiner et de réutiliser des couches de modèles de diffusion pré-entraînés pour les images multi-vues et les vidéos 2D, assurant ainsi la cohérence multi-vue et la cohérence temporelle des vidéos multi-vues générées, tout en réduisant considérablement les coûts d'entraînement. Nous introduisons en outre des modules d'alignement pour aligner les espaces latents des couches issues des modèles de diffusion pré-entraînés pour les images multi-vues et les vidéos 2D, résolvant ainsi l'incompatibilité des couches réutilisées due à l'écart de domaine entre les données 2D et multi-vues. Pour soutenir cette recherche et les travaux futurs, nous contribuons également à un ensemble de données de vidéos multi-vues annotées. Les résultats expérimentaux montrent que notre méthode génère des vidéos multi-vues de haute qualité, présentant des mouvements vifs, une cohérence temporelle et une cohérence multi-vue, pour une variété de prompts textuels.

English

While diffusion models have shown impressive performance in 2D image/video generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation remains underexplored. The new challenges posed by T2MVid generation lie in the lack of massive captioned multi-view videos and the complexity of modeling such multi-dimensional distribution. To this end, we propose a novel diffusion-based pipeline that generates high-quality multi-view videos centered around a dynamic 3D object from text. Specifically, we factor the T2MVid problem into viewpoint-space and time components. Such factorization allows us to combine and reuse layers of advanced pre-trained multi-view image and 2D video diffusion models to ensure multi-view consistency as well as temporal coherence for the generated multi-view videos, largely reducing the training cost. We further introduce alignment modules to align the latent spaces of layers from the pre-trained multi-view and the 2D video diffusion models, addressing the reused layers' incompatibility that arises from the domain gap between 2D and multi-view data. In support of this and future research, we further contribute a captioned multi-view video dataset. Experimental results demonstrate that our method generates high-quality multi-view videos, exhibiting vivid motions, temporal coherence, and multi-view consistency, given a variety of text prompts.

Vivid-ZOO : Génération de vidéos multi-vues avec un modèle de diffusion

Vivid-ZOO: Multi-View Video Generation with Diffusion Model

papers.abstract

Support