UniVG: Hacia la Generación de Video UNImodal
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
Autores: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
Resumen
La generación de videos basada en difusión ha recibido una atención considerable y ha logrado un éxito notable tanto en la comunidad académica como en la industrial. Sin embargo, los esfuerzos actuales se concentran principalmente en la generación de videos de un solo objetivo o tarea única, como la generación impulsada por texto, por imagen o por una combinación de texto e imagen. Esto no puede satisfacer completamente las necesidades de los escenarios de aplicación del mundo real, ya que es probable que los usuarios ingresen condiciones de imágenes y texto de manera flexible, ya sea individualmente o en combinación. Para abordar esto, proponemos un sistema de Generación de Video Unimodal (Unified-modal Video Generation) capaz de manejar múltiples tareas de generación de video a través de las modalidades de texto e imagen. Con este fin, revisamos las diversas tareas de generación de video dentro de nuestro sistema desde la perspectiva de la libertad generativa, y las clasificamos en categorías de generación de video de alta libertad y baja libertad. Para la generación de video de alta libertad, empleamos Atención Cruzada Multicondición (Multi-condition Cross Attention) para generar videos que se alineen con la semántica de las imágenes o textos de entrada. Para la generación de video de baja libertad, introducimos Ruido Gaussiano Sesgado (Biased Gaussian Noise) para reemplazar el Ruido Gaussiano puramente aleatorio, lo que ayuda a preservar mejor el contenido de las condiciones de entrada. Nuestro método logra la menor Distancia de Video Fréchet (FVD) en el punto de referencia académico público MSR-VTT, supera a los métodos de código abierto actuales en evaluaciones humanas y está a la par con el método de código cerrado actual Gen2. Para más ejemplos, visite https://univg-baidu.github.io.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.