ChatPaper.aiChatPaper

VEnhancer: Mejora Generativa Espacio-Tiempo para la Generación de Videos

VEnhancer: Generative Space-Time Enhancement for Video Generation

July 10, 2024
Autores: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI

Resumen

Presentamos VEnhancer, un marco generativo de mejora espacio-temporal que mejora los resultados existentes de texto a video al agregar más detalles en el dominio espacial y un movimiento detallado sintético en el dominio temporal. Dado un video de baja calidad generado, nuestro enfoque puede aumentar simultáneamente su resolución espacial y temporal con escalas de muestreo arbitrarias en espacio y tiempo a través de un modelo unificado de difusión de video. Además, VEnhancer elimina de manera efectiva los artefactos espaciales generados y el parpadeo temporal de los videos generados. Para lograr esto, basándonos en un modelo de difusión de video preentrenado, entrenamos un ControlNet de video e inyectamos este al modelo de difusión como una condición en videos de baja velocidad de cuadros y baja resolución. Para entrenar de manera efectiva este ControlNet de video, diseñamos una ampliación de datos espacio-temporales, así como una condicionante consciente del video. Beneficiándose de los diseños anteriores, VEnhancer resulta ser estable durante el entrenamiento y comparte un elegante método de entrenamiento de extremo a extremo. Experimentos extensos muestran que VEnhancer supera a los métodos existentes de súper resolución de video y súper resolución espacio-temporal de última generación en la mejora de videos generados por IA. Además, con VEnhancer, el método de texto a video de última generación de código abierto existente, VideoCrafter-2, alcanza el primer lugar en la referencia de generación de video -- VBench.
English
We present VEnhancer, a generative space-time enhancement framework that improves the existing text-to-video results by adding more details in spatial domain and synthetic detailed motion in temporal domain. Given a generated low-quality video, our approach can increase its spatial and temporal resolution simultaneously with arbitrary up-sampling space and time scales through a unified video diffusion model. Furthermore, VEnhancer effectively removes generated spatial artifacts and temporal flickering of generated videos. To achieve this, basing on a pretrained video diffusion model, we train a video ControlNet and inject it to the diffusion model as a condition on low frame-rate and low-resolution videos. To effectively train this video ControlNet, we design space-time data augmentation as well as video-aware conditioning. Benefiting from the above designs, VEnhancer yields to be stable during training and shares an elegant end-to-end training manner. Extensive experiments show that VEnhancer surpasses existing state-of-the-art video super-resolution and space-time super-resolution methods in enhancing AI-generated videos. Moreover, with VEnhancer, exisiting open-source state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in video generation benchmark -- VBench.

Summary

AI-Generated Summary

PDF151November 28, 2024