ChatPaper.aiChatPaper

Vivid-ZOO: Generazione di Video Multi-Vista con Modelli di Diffusione

Vivid-ZOO: Multi-View Video Generation with Diffusion Model

June 12, 2024
Autori: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI

Abstract

Sebbene i modelli di diffusione abbiano dimostrato prestazioni impressionanti nella generazione di immagini/video 2D, la generazione di video multi-vista basata su diffusione da testo (Text-to-Multi-view-Video, T2MVid) rimane poco esplorata. Le nuove sfide poste dalla generazione T2MVid risiedono nella mancanza di grandi quantità di video multi-vista con didascalie e nella complessità di modellare una distribuzione così multidimensionale. A tal fine, proponiamo una nuova pipeline basata su diffusione che genera video multi-vista di alta qualità centrati su un oggetto 3D dinamico a partire da testo. Nello specifico, fattorizziamo il problema T2MVid in componenti relative allo spazio delle viste e al tempo. Tale fattorizzazione ci permette di combinare e riutilizzare livelli di modelli di diffusione pre-addestrati avanzati per immagini multi-vista e video 2D, garantendo coerenza multi-vista e coerenza temporale per i video multi-vista generati, riducendo notevolmente i costi di addestramento. Introduciamo inoltre moduli di allineamento per allineare gli spazi latenti dei livelli provenienti dai modelli di diffusione pre-addestrati per immagini multi-vista e video 2D, affrontando l'incompatibilità dei livelli riutilizzati che deriva dal divario di dominio tra dati 2D e multi-vista. A supporto di questa e di future ricerche, contribuiamo inoltre con un dataset di video multi-vista con didascalie. I risultati sperimentali dimostrano che il nostro metodo genera video multi-vista di alta qualità, mostrando movimenti vivaci, coerenza temporale e coerenza multi-vista, dati una varietà di prompt testuali.
English
While diffusion models have shown impressive performance in 2D image/video generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation remains underexplored. The new challenges posed by T2MVid generation lie in the lack of massive captioned multi-view videos and the complexity of modeling such multi-dimensional distribution. To this end, we propose a novel diffusion-based pipeline that generates high-quality multi-view videos centered around a dynamic 3D object from text. Specifically, we factor the T2MVid problem into viewpoint-space and time components. Such factorization allows us to combine and reuse layers of advanced pre-trained multi-view image and 2D video diffusion models to ensure multi-view consistency as well as temporal coherence for the generated multi-view videos, largely reducing the training cost. We further introduce alignment modules to align the latent spaces of layers from the pre-trained multi-view and the 2D video diffusion models, addressing the reused layers' incompatibility that arises from the domain gap between 2D and multi-view data. In support of this and future research, we further contribute a captioned multi-view video dataset. Experimental results demonstrate that our method generates high-quality multi-view videos, exhibiting vivid motions, temporal coherence, and multi-view consistency, given a variety of text prompts.
PDF83January 17, 2026