ChatPaper.aiChatPaper

VEnhancer : Amélioration générative espace-temps pour la génération vidéo

VEnhancer: Generative Space-Time Enhancement for Video Generation

July 10, 2024
Auteurs: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI

Résumé

Nous présentons VEnhancer, un cadre génératif d'amélioration spatio-temporelle qui améliore les résultats existants de génération de texte-à-vidéo en ajoutant plus de détails dans le domaine spatial et en synthétisant des mouvements détaillés dans le domaine temporel. Étant donné une vidéo générée de faible qualité, notre approche peut augmenter simultanément sa résolution spatiale et temporelle avec des échelles d'échantillonnage spatial et temporel arbitraires grâce à un modèle de diffusion vidéo unifié. De plus, VEnhancer supprime efficacement les artefacts spatiaux générés et le scintillement temporel des vidéos générées. Pour y parvenir, en nous basant sur un modèle de diffusion vidéo pré-entraîné, nous entraînons un ControlNet vidéo et l'injectons dans le modèle de diffusion comme condition sur des vidéos à faible taux de rafraîchissement et à faible résolution. Pour entraîner efficacement ce ControlNet vidéo, nous concevons une augmentation de données spatio-temporelle ainsi qu'un conditionnement adapté aux vidéos. Grâce à ces conceptions, VEnhancer se montre stable pendant l'entraînement et adopte une méthode d'entraînement end-to-end élégante. Des expériences approfondies montrent que VEnhancer surpasse les méthodes existantes de super-résolution vidéo et de super-résolution spatio-temporelle dans l'amélioration des vidéos générées par IA. De plus, avec VEnhancer, la méthode open-source de pointe de génération texte-à-vidéo, VideoCrafter-2, atteint la première place dans le benchmark de génération vidéo -- VBench.
English
We present VEnhancer, a generative space-time enhancement framework that improves the existing text-to-video results by adding more details in spatial domain and synthetic detailed motion in temporal domain. Given a generated low-quality video, our approach can increase its spatial and temporal resolution simultaneously with arbitrary up-sampling space and time scales through a unified video diffusion model. Furthermore, VEnhancer effectively removes generated spatial artifacts and temporal flickering of generated videos. To achieve this, basing on a pretrained video diffusion model, we train a video ControlNet and inject it to the diffusion model as a condition on low frame-rate and low-resolution videos. To effectively train this video ControlNet, we design space-time data augmentation as well as video-aware conditioning. Benefiting from the above designs, VEnhancer yields to be stable during training and shares an elegant end-to-end training manner. Extensive experiments show that VEnhancer surpasses existing state-of-the-art video super-resolution and space-time super-resolution methods in enhancing AI-generated videos. Moreover, with VEnhancer, exisiting open-source state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in video generation benchmark -- VBench.

Summary

AI-Generated Summary

PDF151November 28, 2024