ChatPaper.aiChatPaper

VEnhancer: Generatieve Ruimte-Tijd Verbetering voor Videogeneratie

VEnhancer: Generative Space-Time Enhancement for Video Generation

July 10, 2024
Auteurs: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI

Samenvatting

We presenteren VEnhancer, een generatief ruimte-tijd verbeteringsframework dat de bestaande tekst-naar-video resultaten verbetert door meer details toe te voegen in het ruimtelijke domein en synthetische gedetailleerde beweging in het temporele domein. Gegeven een gegenereerde video van lage kwaliteit, kan onze aanpak de ruimtelijke en temporele resolutie gelijktijdig verhogen met willekeurige up-sampling schalen in ruimte en tijd via een geünificeerd video-diffusiemodel. Bovendien verwijdert VEnhancer effectief gegenereerde ruimtelijke artefacten en temporele flikkering van gegenereerde video's. Om dit te bereiken, trainen we, gebaseerd op een voorgetraind video-diffusiemodel, een video ControlNet en injecteren we dit in het diffusiemodel als een conditie op video's met een lage frame-rate en lage resolutie. Om dit video ControlNet effectief te trainen, ontwerpen we ruimte-tijd data-augmentatie evenals video-gerichte conditionering. Dankzij bovenstaande ontwerpen blijft VEnhancer stabiel tijdens de training en deelt het een elegante end-to-end trainingswijze. Uitgebreide experimenten tonen aan dat VEnhancer de bestaande state-of-the-art video-superresolutie en ruimte-tijd superresolutie methoden overtreft in het verbeteren van AI-gegenereerde video's. Bovendien bereikt, met VEnhancer, de bestaande open-source state-of-the-art tekst-naar-video methode, VideoCrafter-2, de eerste plaats in de video-generatie benchmark -- VBench.
English
We present VEnhancer, a generative space-time enhancement framework that improves the existing text-to-video results by adding more details in spatial domain and synthetic detailed motion in temporal domain. Given a generated low-quality video, our approach can increase its spatial and temporal resolution simultaneously with arbitrary up-sampling space and time scales through a unified video diffusion model. Furthermore, VEnhancer effectively removes generated spatial artifacts and temporal flickering of generated videos. To achieve this, basing on a pretrained video diffusion model, we train a video ControlNet and inject it to the diffusion model as a condition on low frame-rate and low-resolution videos. To effectively train this video ControlNet, we design space-time data augmentation as well as video-aware conditioning. Benefiting from the above designs, VEnhancer yields to be stable during training and shares an elegant end-to-end training manner. Extensive experiments show that VEnhancer surpasses existing state-of-the-art video super-resolution and space-time super-resolution methods in enhancing AI-generated videos. Moreover, with VEnhancer, exisiting open-source state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in video generation benchmark -- VBench.
PDF161November 28, 2024