UniVG: Verso la Generazione Video UNImodale
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
Autori: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
Abstract
La generazione di video basata su modelli di diffusione ha ricevuto ampia attenzione e ha ottenuto un notevole successo sia nella comunità accademica che in quella industriale. Tuttavia, gli sforzi attuali si concentrano principalmente sulla generazione di video con obiettivo singolo o su singoli compiti, come la generazione guidata da testo, da immagini o da una combinazione di testo e immagini. Questo non soddisfa pienamente le esigenze degli scenari applicativi del mondo reale, poiché è probabile che gli utenti inseriscano condizioni di immagini e testo in modo flessibile, sia individualmente che in combinazione. Per affrontare questo problema, proponiamo un sistema di Generazione Video Unificata (Unified-modal Video Generation) in grado di gestire molteplici compiti di generazione video attraverso le modalità di testo e immagini. A tal fine, esaminiamo i vari compiti di generazione video all'interno del nostro sistema dal punto di vista della libertà generativa e li classifichiamo in categorie di generazione video ad alta libertà e a bassa libertà. Per la generazione video ad alta libertà, utilizziamo l'attenzione incrociata multi-condizione (Multi-condition Cross Attention) per generare video che si allineano con la semantica delle immagini o del testo in input. Per la generazione video a bassa libertà, introduciamo il rumore gaussiano polarizzato (Biased Gaussian Noise) per sostituire il rumore gaussiano puramente casuale, il che aiuta a preservare meglio il contenuto delle condizioni di input. Il nostro metodo raggiunge il punteggio più basso nella distanza di Fréchet video (FVD) sul benchmark accademico pubblico MSR-VTT, supera i metodi open-source attuali nelle valutazioni umane e si colloca allo stesso livello del metodo closed-source attuale Gen2. Per ulteriori esempi, visitare https://univg-baidu.github.io.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.