UniVG: Verso la Generazione Video UNImodale

Abstract

La generazione di video basata su modelli di diffusione ha ricevuto ampia attenzione e ha ottenuto un notevole successo sia nella comunità accademica che in quella industriale. Tuttavia, gli sforzi attuali si concentrano principalmente sulla generazione di video con obiettivo singolo o su singoli compiti, come la generazione guidata da testo, da immagini o da una combinazione di testo e immagini. Questo non soddisfa pienamente le esigenze degli scenari applicativi del mondo reale, poiché è probabile che gli utenti inseriscano condizioni di immagini e testo in modo flessibile, sia individualmente che in combinazione. Per affrontare questo problema, proponiamo un sistema di Generazione Video Unificata (Unified-modal Video Generation) in grado di gestire molteplici compiti di generazione video attraverso le modalità di testo e immagini. A tal fine, esaminiamo i vari compiti di generazione video all'interno del nostro sistema dal punto di vista della libertà generativa e li classifichiamo in categorie di generazione video ad alta libertà e a bassa libertà. Per la generazione video ad alta libertà, utilizziamo l'attenzione incrociata multi-condizione (Multi-condition Cross Attention) per generare video che si allineano con la semantica delle immagini o del testo in input. Per la generazione video a bassa libertà, introduciamo il rumore gaussiano polarizzato (Biased Gaussian Noise) per sostituire il rumore gaussiano puramente casuale, il che aiuta a preservare meglio il contenuto delle condizioni di input. Il nostro metodo raggiunge il punteggio più basso nella distanza di Fréchet video (FVD) sul benchmark accademico pubblico MSR-VTT, supera i metodi open-source attuali nelle valutazioni umane e si colloca allo stesso livello del metodo closed-source attuale Gen2. Per ulteriori esempi, visitare https://univg-baidu.github.io.

English

Diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by text, by image, or by a combination of text and image. This cannot fully meet the needs of real-world application scenarios, as users are likely to input images and text conditions in a flexible manner, either individually or in combination. To address this, we propose a Unified-modal Video Genearation system that is capable of handling multiple video generation tasks across text and image modalities. To this end, we revisit the various video generation tasks within our system from the perspective of generative freedom, and classify them into high-freedom and low-freedom video generation categories. For high-freedom video generation, we employ Multi-condition Cross Attention to generate videos that align with the semantics of the input images or text. For low-freedom video generation, we introduce Biased Gaussian Noise to replace the pure random Gaussian Noise, which helps to better preserve the content of the input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD) on the public academic benchmark MSR-VTT, surpasses the current open-source methods in human evaluations, and is on par with the current close-source method Gen2. For more samples, visit https://univg-baidu.github.io.

UniVG: Verso la Generazione Video UNImodale

UniVG: Towards UNIfied-modal Video Generation

Abstract

Support