Vivid-ZOO: Multi-View Video Generatie met Diffusiemodel

Samenvatting

Hoewel diffusiemodellen indrukwekkende prestaties hebben getoond bij het genereren van 2D-beelden/video's, blijft diffusiegebaseerde Text-to-Multi-view-Video (T2MVid)-generatie onderbelicht. De nieuwe uitdagingen die T2MVid-generatie met zich meebrengt, liggen in het ontbreken van grote hoeveelheden getitelde multi-view video's en de complexiteit van het modelleren van zo'n multidimensionale verdeling. Daarom stellen we een nieuwe diffusiegebaseerde pijplijn voor die hoogwaardige multi-view video's genereert rond een dynamisch 3D-object op basis van tekst. Specifiek splitsen we het T2MVid-probleem op in viewpoint-ruimte en tijdcomponenten. Deze factorisatie stelt ons in staat om lagen van geavanceerde, vooraf getrainde multi-view beeld- en 2D-videodiffusiemodellen te combineren en te hergebruiken om multi-view consistentie en temporele samenhang te waarborgen voor de gegenereerde multi-view video's, waardoor de trainingskosten aanzienlijk worden verlaagd. We introduceren verder alignatiemodules om de latente ruimtes van lagen uit de vooraf getrainde multi-view en 2D-videodiffusiemodellen uit te lijnen, waardoor de onverenigbaarheid van de hergebruikte lagen wordt aangepakt die ontstaat door het domeingat tussen 2D- en multi-view data. Ter ondersteuning van dit en toekomstig onderzoek dragen we verder een getiteld multi-view videodataset bij. Experimentele resultaten tonen aan dat onze methode hoogwaardige multi-view video's genereert, met levendige bewegingen, temporele samenhang en multi-view consistentie, gegeven een verscheidenheid aan tekstprompts.

English

While diffusion models have shown impressive performance in 2D image/video generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation remains underexplored. The new challenges posed by T2MVid generation lie in the lack of massive captioned multi-view videos and the complexity of modeling such multi-dimensional distribution. To this end, we propose a novel diffusion-based pipeline that generates high-quality multi-view videos centered around a dynamic 3D object from text. Specifically, we factor the T2MVid problem into viewpoint-space and time components. Such factorization allows us to combine and reuse layers of advanced pre-trained multi-view image and 2D video diffusion models to ensure multi-view consistency as well as temporal coherence for the generated multi-view videos, largely reducing the training cost. We further introduce alignment modules to align the latent spaces of layers from the pre-trained multi-view and the 2D video diffusion models, addressing the reused layers' incompatibility that arises from the domain gap between 2D and multi-view data. In support of this and future research, we further contribute a captioned multi-view video dataset. Experimental results demonstrate that our method generates high-quality multi-view videos, exhibiting vivid motions, temporal coherence, and multi-view consistency, given a variety of text prompts.

Vivid-ZOO: Multi-View Video Generatie met Diffusiemodel

Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Samenvatting

Support