VideoGen: 고해상도 텍스트-비디오 생성을 위한 참조 기반 잠재 디퓨전 접근법
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
September 1, 2023
저자: Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang
cs.AI
초록
본 논문에서는 참조 기반 잠재 확산(reference-guided latent diffusion)을 사용하여 높은 프레임 충실도와 강한 시간적 일관성을 갖춘 고화질 비디오를 생성할 수 있는 텍스트-비디오 생성 접근법인 VideoGen을 제안합니다. 우리는 Stable Diffusion과 같은 기성 텍스트-이미지 생성 모델을 활용하여 텍스트 프롬프트로부터 높은 콘텐츠 품질의 이미지를 생성하고, 이를 비디오 생성을 위한 참조 이미지로 사용합니다. 그런 다음, 참조 이미지와 텍스트 프롬프트를 조건으로 하는 효율적인 캐스케이드 잠재 확산 모듈을 도입하여 잠재 비디오 표현을 생성하고, 시간적 해상도를 개선하기 위해 흐름 기반 시간적 업샘플링 단계를 수행합니다. 마지막으로, 향상된 비디오 디코더를 통해 잠재 비디오 표현을 고화질 비디오로 매핑합니다. 학습 과정에서는 캐스케이드 잠재 확산 모듈을 학습하기 위해 실제 비디오의 첫 번째 프레임을 참조 이미지로 사용합니다. 우리 접근법의 주요 특징은 다음과 같습니다: 텍스트-이미지 모델에 의해 생성된 참조 이미지는 시각적 충실도를 향상시키고, 이를 조건으로 사용함으로써 확산 모델이 비디오 역학을 학습하는 데 더 집중할 수 있으며, 비디오 디코더는 레이블이 없는 비디오 데이터를 통해 학습되어 고품질의 쉽게 구할 수 있는 비디오로부터 이점을 얻습니다. VideoGen은 정성적 및 정량적 평가 모두에서 텍스트-비디오 생성 분야의 새로운 최첨단 기술을 제시합니다.
English
In this paper, we present VideoGen, a text-to-video generation approach,
which can generate a high-definition video with high frame fidelity and strong
temporal consistency using reference-guided latent diffusion. We leverage an
off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to
generate an image with high content quality from the text prompt, as a
reference image to guide video generation. Then, we introduce an efficient
cascaded latent diffusion module conditioned on both the reference image and
the text prompt, for generating latent video representations, followed by a
flow-based temporal upsampling step to improve the temporal resolution.
Finally, we map latent video representations into a high-definition video
through an enhanced video decoder. During training, we use the first frame of a
ground-truth video as the reference image for training the cascaded latent
diffusion module. The main characterises of our approach include: the reference
image generated by the text-to-image model improves the visual fidelity; using
it as the condition makes the diffusion model focus more on learning the video
dynamics; and the video decoder is trained over unlabeled video data, thus
benefiting from high-quality easily-available videos. VideoGen sets a new
state-of-the-art in text-to-video generation in terms of both qualitative and
quantitative evaluation.