UniVG: Hacia la Generación de Video UNImodal

Resumen

La generación de videos basada en difusión ha recibido una atención considerable y ha logrado un éxito notable tanto en la comunidad académica como en la industrial. Sin embargo, los esfuerzos actuales se concentran principalmente en la generación de videos de un solo objetivo o tarea única, como la generación impulsada por texto, por imagen o por una combinación de texto e imagen. Esto no puede satisfacer completamente las necesidades de los escenarios de aplicación del mundo real, ya que es probable que los usuarios ingresen condiciones de imágenes y texto de manera flexible, ya sea individualmente o en combinación. Para abordar esto, proponemos un sistema de Generación de Video Unimodal (Unified-modal Video Generation) capaz de manejar múltiples tareas de generación de video a través de las modalidades de texto e imagen. Con este fin, revisamos las diversas tareas de generación de video dentro de nuestro sistema desde la perspectiva de la libertad generativa, y las clasificamos en categorías de generación de video de alta libertad y baja libertad. Para la generación de video de alta libertad, empleamos Atención Cruzada Multicondición (Multi-condition Cross Attention) para generar videos que se alineen con la semántica de las imágenes o textos de entrada. Para la generación de video de baja libertad, introducimos Ruido Gaussiano Sesgado (Biased Gaussian Noise) para reemplazar el Ruido Gaussiano puramente aleatorio, lo que ayuda a preservar mejor el contenido de las condiciones de entrada. Nuestro método logra la menor Distancia de Video Fréchet (FVD) en el punto de referencia académico público MSR-VTT, supera a los métodos de código abierto actuales en evaluaciones humanas y está a la par con el método de código cerrado actual Gen2. Para más ejemplos, visite https://univg-baidu.github.io.

English

Diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by text, by image, or by a combination of text and image. This cannot fully meet the needs of real-world application scenarios, as users are likely to input images and text conditions in a flexible manner, either individually or in combination. To address this, we propose a Unified-modal Video Genearation system that is capable of handling multiple video generation tasks across text and image modalities. To this end, we revisit the various video generation tasks within our system from the perspective of generative freedom, and classify them into high-freedom and low-freedom video generation categories. For high-freedom video generation, we employ Multi-condition Cross Attention to generate videos that align with the semantics of the input images or text. For low-freedom video generation, we introduce Biased Gaussian Noise to replace the pure random Gaussian Noise, which helps to better preserve the content of the input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD) on the public academic benchmark MSR-VTT, surpasses the current open-source methods in human evaluations, and is on par with the current close-source method Gen2. For more samples, visit https://univg-baidu.github.io.

UniVG: Hacia la Generación de Video UNImodal

UniVG: Towards UNIfied-modal Video Generation

Resumen

Support