ChatPaper.aiChatPaper

FusionFrames: Effiziente Architekturaspekte für die Text-zu-Video-Generierungspipeline

FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline

November 22, 2023
Autoren: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI

Zusammenfassung

Multimedia-Generierungsansätze nehmen einen bedeutenden Platz in der Forschung zur künstlichen Intelligenz ein. Text-zu-Bild-Modelle haben in den letzten Jahren hochwertige Ergebnisse erzielt. Allerdings haben sich Methoden zur Videosynthese erst kürzlich zu entwickeln begonnen. Dieses Papier stellt eine neue zweistufige latente Diffusionsarchitektur zur Text-zu-Video-Generierung vor, die auf dem Text-zu-Bild-Diffusionsmodell basiert. Die erste Stufe betrifft die Synthese von Schlüsselbildern, um die Handlung eines Videos zu skizzieren, während die zweite Stufe der Generierung von Interpolationsbildern gewidmet ist, um die Bewegungen der Szene und der Objekte flüssig zu gestalten. Wir vergleichen mehrere zeitliche Konditionierungsansätze zur Generierung von Schlüsselbildern. Die Ergebnisse zeigen den Vorteil der Verwendung separater zeitlicher Blöcke gegenüber zeitlichen Schichten in Bezug auf Metriken, die Aspekte der Videoqualität und menschliche Präferenzen widerspiegeln. Das Design unseres Interpolationsmodells reduziert die Rechenkosten im Vergleich zu anderen Ansätzen zur maskierten Bildinterpolation erheblich. Darüber hinaus bewerten wir verschiedene Konfigurationen des MoVQ-basierten Video-Decodierungsschemas, um die Konsistenz zu verbessern und höhere PSNR-, SSIM-, MSE- und LPIPS-Werte zu erreichen. Schließlich vergleichen wir unsere Pipeline mit bestehenden Lösungen und erzielen die Top-2-Werte insgesamt und den Top-1-Wert unter den Open-Source-Lösungen: CLIPSIM = 0,2976 und FVD = 433,054. Projektseite: https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial intelligence research. Text-to-image models achieved high-quality results over the last few years. However, video synthesis methods recently started to develop. This paper presents a new two-stage latent diffusion text-to-video generation architecture based on the text-to-image diffusion model. The first stage concerns keyframes synthesis to figure the storyline of a video, while the second one is devoted to interpolation frames generation to make movements of the scene and objects smooth. We compare several temporal conditioning approaches for keyframes generation. The results show the advantage of using separate temporal blocks over temporal layers in terms of metrics reflecting video generation quality aspects and human preference. The design of our interpolation model significantly reduces computational costs compared to other masked frame interpolation approaches. Furthermore, we evaluate different configurations of MoVQ-based video decoding scheme to improve consistency and achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our pipeline with existing solutions and achieve top-2 scores overall and top-1 among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page: https://ai-forever.github.io/kandinsky-video/
PDF584December 15, 2024