Vivid-ZOO: Multi-View Video Generatie met Diffusiemodel
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
Auteurs: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
Samenvatting
Hoewel diffusiemodellen indrukwekkende prestaties hebben getoond bij het genereren van 2D-beelden/video's, blijft diffusiegebaseerde Text-to-Multi-view-Video (T2MVid)-generatie onderbelicht. De nieuwe uitdagingen die T2MVid-generatie met zich meebrengt, liggen in het ontbreken van grote hoeveelheden getitelde multi-view video's en de complexiteit van het modelleren van zo'n multidimensionale verdeling. Daarom stellen we een nieuwe diffusiegebaseerde pijplijn voor die hoogwaardige multi-view video's genereert rond een dynamisch 3D-object op basis van tekst. Specifiek splitsen we het T2MVid-probleem op in viewpoint-ruimte en tijdcomponenten. Deze factorisatie stelt ons in staat om lagen van geavanceerde, vooraf getrainde multi-view beeld- en 2D-videodiffusiemodellen te combineren en te hergebruiken om multi-view consistentie en temporele samenhang te waarborgen voor de gegenereerde multi-view video's, waardoor de trainingskosten aanzienlijk worden verlaagd. We introduceren verder alignatiemodules om de latente ruimtes van lagen uit de vooraf getrainde multi-view en 2D-videodiffusiemodellen uit te lijnen, waardoor de onverenigbaarheid van de hergebruikte lagen wordt aangepakt die ontstaat door het domeingat tussen 2D- en multi-view data. Ter ondersteuning van dit en toekomstig onderzoek dragen we verder een getiteld multi-view videodataset bij. Experimentele resultaten tonen aan dat onze methode hoogwaardige multi-view video's genereert, met levendige bewegingen, temporele samenhang en multi-view consistentie, gegeven een verscheidenheid aan tekstprompts.
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.