ChatPaper.aiChatPaper

LAVIE: 캐스케이드 잠재 확산 모델을 통한 고품질 비디오 생성

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

September 26, 2023
저자: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI

초록

본 연구는 사전 학습된 텍스트-이미지(T2I) 생성 모델을 기반으로 고품질의 텍스트-비디오(T2V) 생성 모델을 학습하는 것을 목표로 합니다. 이는 a) 시각적으로 사실적이고 시간적으로 일관된 비디오 합성을 달성하면서 b) 사전 학습된 T2I 모델의 강력한 창의적 생성 특성을 보존하는, 매우 바람직하지만 도전적인 과제입니다. 이를 위해, 우리는 기본 T2V 모델, 시간적 보간 모델, 비디오 초해상도 모델로 구성된 계단식 비디오 잠재 확산 모델을 기반으로 작동하는 통합 비디오 생성 프레임워크인 LaVie를 제안합니다. 우리의 주요 통찰은 두 가지입니다: 1) 단순한 시간적 자기 주의 메커니즘과 회전 위치 인코딩을 결합함으로써 비디오 데이터에 내재된 시간적 상관관계를 적절히 포착할 수 있음을 밝혔습니다. 2) 또한, 이미지-비디오 공동 미세 조정 과정이 고품질 및 창의적인 결과물을 생성하는 데 중요한 역할을 한다는 것을 검증했습니다. LaVie의 성능을 향상시키기 위해, 우리는 품질, 다양성, 미적 매력을 우선시하는 2,500만 개의 텍스트-비디오 쌍으로 구성된 포괄적이고 다양한 비디오 데이터셋인 Vimeo25M을 제공합니다. 광범위한 실험을 통해 LaVie가 양적 및 질적으로 최첨단 성능을 달성함을 입증했습니다. 더 나아가, 우리는 사전 학습된 LaVie 모델이 다양한 장편 비디오 생성 및 개인화된 비디오 합성 응용 분야에서의 다용성을 보여줍니다.
English
This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
PDF423December 15, 2024