ChatPaper.aiChatPaper

LAVIE: Hoogwaardige Videogeneratie met Gecascadeerde Latente Diffusiemodellen

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

September 26, 2023
Auteurs: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI

Samenvatting

Dit werk heeft als doel een hoogwaardig tekst-naar-video (T2V) generatief model te leren door gebruik te maken van een vooraf getraind tekst-naar-beeld (T2I) model als basis. Het is een zeer gewenste maar uitdagende taak om tegelijkertijd a) de synthese van visueel realistische en temporeel coherente video's te bereiken, terwijl b) de sterke creatieve generatie-eigenschappen van het vooraf getrainde T2I model behouden blijven. Hiertoe stellen we LaVie voor, een geïntegreerd videogeneratiekader dat werkt op gecascadeerde video latent diffusion modellen, bestaande uit een basis T2V model, een temporeel interpolatiemodel en een video super-resolutie model. Onze belangrijkste inzichten zijn tweeledig: 1) We laten zien dat de integratie van eenvoudige temporele zelf-attenties, in combinatie met roterende positionele codering, voldoende de temporele correlaties in videodata vastlegt. 2) Daarnaast valideren we dat het proces van gezamenlijke beeld-video fine-tuning een cruciale rol speelt bij het produceren van hoogwaardige en creatieve resultaten. Om de prestaties van LaVie te verbeteren, dragen we een uitgebreide en diverse videodataset genaamd Vimeo25M bij, bestaande uit 25 miljoen tekst-video paren die prioriteit geven aan kwaliteit, diversiteit en esthetische aantrekkingskracht. Uitgebreide experimenten tonen aan dat LaVie state-of-the-art prestaties bereikt, zowel kwantitatief als kwalitatief. Bovendien demonstreren we de veelzijdigheid van vooraf getrainde LaVie modellen in verschillende toepassingen voor lange videogeneratie en gepersonaliseerde videosynthese.
English
This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
PDF423December 15, 2024