ChatPaper.aiChatPaper

LAVIE: Hochwertige Videogenerierung mit kaskadierten latenten Diffusionsmodellen

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

September 26, 2023
Autoren: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI

Zusammenfassung

Diese Arbeit zielt darauf ab, ein hochwertiges Text-zu-Video (T2V)-Generierungsmodell zu entwickeln, indem ein vortrainiertes Text-zu-Bild (T2I)-Modell als Grundlage genutzt wird. Es handelt sich um eine äußerst wünschenswerte, aber anspruchsvolle Aufgabe, gleichzeitig a) die Synthese von visuell realistischen und zeitlich kohärenten Videos zu erreichen, während b) die starke kreative Generierungsfähigkeit des vortrainierten T2I-Modells erhalten bleibt. Zu diesem Zweck schlagen wir LaVie vor, ein integriertes Videogenerierungsframework, das auf kaskadierten Video-Latent-Diffusionsmodellen basiert und ein Basismodell für T2V, ein Modell für zeitliche Interpolation und ein Modell für Video-Super-Resolution umfasst. Unsere zentralen Erkenntnisse sind zweifach: 1) Wir zeigen, dass die Einbindung einfacher zeitlicher Selbstaufmerksamkeiten, gekoppelt mit rotatorischer Positionskodierung, die zeitlichen Korrelationen in Videodaten ausreichend erfasst. 2) Darüber hinaus bestätigen wir, dass der Prozess des gemeinsamen Feinabstimmens von Bildern und Videos eine entscheidende Rolle bei der Erzeugung hochwertiger und kreativer Ergebnisse spielt. Um die Leistung von LaVie zu verbessern, stellen wir einen umfassenden und vielfältigen Videodatensatz namens Vimeo25M bereit, der aus 25 Millionen Text-Video-Paaren besteht und Qualität, Vielfalt und ästhetischen Reiz priorisiert. Umfangreiche Experimente zeigen, dass LaVie sowohl quantitativ als auch qualitativ state-of-the-art Leistungen erzielt. Darüber hinaus demonstrieren wir die Vielseitigkeit der vortrainierten LaVie-Modelle in verschiedenen Anwendungen zur Generierung langer Videos und zur personalisierten Videosynthese.
English
This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
PDF423December 15, 2024