VEnhancer: 비디오 생성을 위한 생성적 시공간 향상 기술
VEnhancer: Generative Space-Time Enhancement for Video Generation
July 10, 2024
저자: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI
초록
본 논문에서는 공간적 영역에서 더 많은 디테일을 추가하고 시간적 영역에서 합성된 세부 움직임을 생성함으로써 기존의 텍스트-투-비디오 결과를 개선하는 생성적 시공간 강화 프레임워크인 VEnhancer를 소개합니다. 생성된 저화질 비디오가 주어졌을 때, 우리의 접근 방식은 통합된 비디오 확산 모델을 통해 임의의 업샘플링 공간 및 시간 스케일로 공간적 및 시간적 해상도를 동시에 향상시킬 수 있습니다. 또한, VEnhancer는 생성된 비디오의 공간적 아티팩트와 시간적 깜빡임을 효과적으로 제거합니다. 이를 달성하기 위해, 사전 학습된 비디오 확산 모델을 기반으로 비디오 ControlNet을 학습시키고 이를 저프레임률 및 저해상도 비디오에 대한 조건으로 확산 모델에 주입합니다. 이 비디오 ControlNet을 효과적으로 학습시키기 위해, 시공간 데이터 증강 및 비디오 인식 조건화를 설계했습니다. 이러한 설계 덕분에, VEnhancer는 학습 중 안정성을 유지하며 우아한 종단간 학습 방식을 공유합니다. 광범위한 실험 결과, VEnhancer는 AI 생성 비디오를 강화하는 데 있어 기존의 최첨단 비디오 초해상도 및 시공간 초해상도 방법들을 능가하는 것으로 나타났습니다. 또한, VEnhancer를 통해 기존의 오픈소스 최첨단 텍스트-투-비디오 방법인 VideoCrafter-2는 비디오 생성 벤치마크인 VBench에서 최상위를 차지했습니다.
English
We present VEnhancer, a generative space-time enhancement framework that
improves the existing text-to-video results by adding more details in spatial
domain and synthetic detailed motion in temporal domain. Given a generated
low-quality video, our approach can increase its spatial and temporal
resolution simultaneously with arbitrary up-sampling space and time scales
through a unified video diffusion model. Furthermore, VEnhancer effectively
removes generated spatial artifacts and temporal flickering of generated
videos. To achieve this, basing on a pretrained video diffusion model, we train
a video ControlNet and inject it to the diffusion model as a condition on low
frame-rate and low-resolution videos. To effectively train this video
ControlNet, we design space-time data augmentation as well as video-aware
conditioning. Benefiting from the above designs, VEnhancer yields to be stable
during training and shares an elegant end-to-end training manner. Extensive
experiments show that VEnhancer surpasses existing state-of-the-art video
super-resolution and space-time super-resolution methods in enhancing
AI-generated videos. Moreover, with VEnhancer, exisiting open-source
state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in
video generation benchmark -- VBench.Summary
AI-Generated Summary