UniVG : Vers une génération vidéo UNImodale
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
Auteurs: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
Résumé
La génération de vidéos basée sur la diffusion a suscité une attention considérable et a obtenu un succès notable au sein des communautés académiques et industrielles. Cependant, les efforts actuels se concentrent principalement sur la génération de vidéos à objectif unique ou à tâche unique, telles que la génération pilotée par du texte, par une image, ou par une combinaison de texte et d’image. Cela ne répond pas pleinement aux besoins des scénarios d’application réels, car les utilisateurs sont susceptibles de saisir des conditions sous forme d’images et de texte de manière flexible, soit individuellement, soit en combinaison. Pour remédier à cela, nous proposons un système de Génération de Vidéo Unimodale capable de gérer plusieurs tâches de génération de vidéos à travers les modalités texte et image. À cette fin, nous revisitons les différentes tâches de génération de vidéos au sein de notre système sous l’angle de la liberté générative, et les classons en catégories de génération de vidéos à haute liberté et à faible liberté. Pour la génération de vidéos à haute liberté, nous utilisons une Attention Croisée Multi-condition pour générer des vidéos alignées sur la sémantique des images ou du texte en entrée. Pour la génération de vidéos à faible liberté, nous introduisons un Bruit Gaussien Biaisé pour remplacer le Bruit Gaussien purement aléatoire, ce qui permet de mieux préserver le contenu des conditions d’entrée. Notre méthode atteint la plus faible Distance de Vidéo Fréchet (FVD) sur le benchmark académique public MSR-VTT, surpasse les méthodes open-source actuelles dans les évaluations humaines, et est à égalité avec la méthode close-source actuelle Gen2. Pour plus d’exemples, visitez https://univg-baidu.github.io.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.