ChatPaper.aiChatPaper

VEnhancer: Potenziamento Generativo Spazio-Temporale per la Generazione di Video

VEnhancer: Generative Space-Time Enhancement for Video Generation

July 10, 2024
Autori: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI

Abstract

Presentiamo VEnhancer, un framework generativo di miglioramento spazio-temporale che migliora i risultati esistenti di text-to-video aggiungendo maggiori dettagli nel dominio spaziale e movimenti sintetici dettagliati nel dominio temporale. Dato un video generato di bassa qualità, il nostro approccio è in grado di aumentarne simultaneamente la risoluzione spaziale e temporale con scale di up-sampling arbitrarie nello spazio e nel tempo attraverso un modello unificato di diffusione video. Inoltre, VEnhancer rimuove efficacemente gli artefatti spaziali generati e lo sfarfallio temporale dei video generati. Per raggiungere questo obiettivo, basandoci su un modello di diffusione video pre-addestrato, addestriamo un video ControlNet e lo iniettiamo nel modello di diffusione come condizione su video a basso frame-rate e bassa risoluzione. Per addestrare efficacemente questo video ControlNet, progettiamo un aumento dei dati spazio-temporale nonché un condizionamento consapevole del video. Grazie a queste scelte progettuali, VEnhancer risulta stabile durante l'addestramento e condivide un elegante approccio end-to-end. Esperimenti estensivi dimostrano che VEnhancer supera i metodi esistenti all'avanguardia per la super-risoluzione video e la super-risoluzione spazio-temporale nel miglioramento dei video generati dall'IA. Inoltre, con VEnhancer, il metodo open-source all'avanguardia per il text-to-video, VideoCrafter-2, raggiunge la prima posizione nel benchmark di generazione video -- VBench.
English
We present VEnhancer, a generative space-time enhancement framework that improves the existing text-to-video results by adding more details in spatial domain and synthetic detailed motion in temporal domain. Given a generated low-quality video, our approach can increase its spatial and temporal resolution simultaneously with arbitrary up-sampling space and time scales through a unified video diffusion model. Furthermore, VEnhancer effectively removes generated spatial artifacts and temporal flickering of generated videos. To achieve this, basing on a pretrained video diffusion model, we train a video ControlNet and inject it to the diffusion model as a condition on low frame-rate and low-resolution videos. To effectively train this video ControlNet, we design space-time data augmentation as well as video-aware conditioning. Benefiting from the above designs, VEnhancer yields to be stable during training and shares an elegant end-to-end training manner. Extensive experiments show that VEnhancer surpasses existing state-of-the-art video super-resolution and space-time super-resolution methods in enhancing AI-generated videos. Moreover, with VEnhancer, exisiting open-source state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in video generation benchmark -- VBench.
PDF161November 28, 2024