UniVG : Vers une génération vidéo UNImodale

papers.abstract

La génération de vidéos basée sur la diffusion a suscité une attention considérable et a obtenu un succès notable au sein des communautés académiques et industrielles. Cependant, les efforts actuels se concentrent principalement sur la génération de vidéos à objectif unique ou à tâche unique, telles que la génération pilotée par du texte, par une image, ou par une combinaison de texte et d’image. Cela ne répond pas pleinement aux besoins des scénarios d’application réels, car les utilisateurs sont susceptibles de saisir des conditions sous forme d’images et de texte de manière flexible, soit individuellement, soit en combinaison. Pour remédier à cela, nous proposons un système de Génération de Vidéo Unimodale capable de gérer plusieurs tâches de génération de vidéos à travers les modalités texte et image. À cette fin, nous revisitons les différentes tâches de génération de vidéos au sein de notre système sous l’angle de la liberté générative, et les classons en catégories de génération de vidéos à haute liberté et à faible liberté. Pour la génération de vidéos à haute liberté, nous utilisons une Attention Croisée Multi-condition pour générer des vidéos alignées sur la sémantique des images ou du texte en entrée. Pour la génération de vidéos à faible liberté, nous introduisons un Bruit Gaussien Biaisé pour remplacer le Bruit Gaussien purement aléatoire, ce qui permet de mieux préserver le contenu des conditions d’entrée. Notre méthode atteint la plus faible Distance de Vidéo Fréchet (FVD) sur le benchmark académique public MSR-VTT, surpasse les méthodes open-source actuelles dans les évaluations humaines, et est à égalité avec la méthode close-source actuelle Gen2. Pour plus d’exemples, visitez https://univg-baidu.github.io.

English

Diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by text, by image, or by a combination of text and image. This cannot fully meet the needs of real-world application scenarios, as users are likely to input images and text conditions in a flexible manner, either individually or in combination. To address this, we propose a Unified-modal Video Genearation system that is capable of handling multiple video generation tasks across text and image modalities. To this end, we revisit the various video generation tasks within our system from the perspective of generative freedom, and classify them into high-freedom and low-freedom video generation categories. For high-freedom video generation, we employ Multi-condition Cross Attention to generate videos that align with the semantics of the input images or text. For low-freedom video generation, we introduce Biased Gaussian Noise to replace the pure random Gaussian Noise, which helps to better preserve the content of the input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD) on the public academic benchmark MSR-VTT, surpasses the current open-source methods in human evaluations, and is on par with the current close-source method Gen2. For more samples, visit https://univg-baidu.github.io.

UniVG : Vers une génération vidéo UNImodale

UniVG: Towards UNIfied-modal Video Generation

papers.abstract

Support