VEnhancer: Aprimoramento Generativo Espaço-Temporal para Geração de Vídeo
VEnhancer: Generative Space-Time Enhancement for Video Generation
July 10, 2024
Autores: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI
Resumo
Apresentamos o VEnhancer, um framework generativo de aprimoramento espaço-temporal que melhora os resultados existentes de texto para vídeo adicionando mais detalhes no domínio espacial e movimento detalhado sintético no domínio temporal. Dado um vídeo de baixa qualidade gerado, nossa abordagem pode aumentar simultaneamente sua resolução espacial e temporal com escalas de ampliação espacial e temporal arbitrárias através de um modelo unificado de difusão de vídeo. Além disso, o VEnhancer remove efetivamente artefatos espaciais gerados e cintilação temporal de vídeos gerados. Para alcançar isso, com base em um modelo de difusão de vídeo pré-treinado, treinamos um Video ControlNet e o injetamos no modelo de difusão como uma condição em vídeos de baixa taxa de quadros e baixa resolução. Para treinar efetivamente este Video ControlNet, projetamos aumento de dados espaço-temporal, bem como condicionamento consciente de vídeo. Beneficiando-se desses projetos, o VEnhancer se mostra estável durante o treinamento e compartilha uma maneira de treinamento elegante de ponta a ponta. Experimentos extensos mostram que o VEnhancer supera os métodos existentes de super-resolução de vídeo e super-resolução espaço-temporal de última geração no aprimoramento de vídeos gerados por IA. Além disso, com o VEnhancer, o método de texto para vídeo de última geração de código aberto existente, VideoCrafter-2, alcança o primeiro lugar no benchmark de geração de vídeo - VBench.
English
We present VEnhancer, a generative space-time enhancement framework that
improves the existing text-to-video results by adding more details in spatial
domain and synthetic detailed motion in temporal domain. Given a generated
low-quality video, our approach can increase its spatial and temporal
resolution simultaneously with arbitrary up-sampling space and time scales
through a unified video diffusion model. Furthermore, VEnhancer effectively
removes generated spatial artifacts and temporal flickering of generated
videos. To achieve this, basing on a pretrained video diffusion model, we train
a video ControlNet and inject it to the diffusion model as a condition on low
frame-rate and low-resolution videos. To effectively train this video
ControlNet, we design space-time data augmentation as well as video-aware
conditioning. Benefiting from the above designs, VEnhancer yields to be stable
during training and shares an elegant end-to-end training manner. Extensive
experiments show that VEnhancer surpasses existing state-of-the-art video
super-resolution and space-time super-resolution methods in enhancing
AI-generated videos. Moreover, with VEnhancer, exisiting open-source
state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in
video generation benchmark -- VBench.