FusionFrames: Efficiënte Architecturale Aspecten voor de Text-naar-Video Generatiepijplijn
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline
November 22, 2023
Auteurs: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Samenvatting
Multimedia-generatiebenaderingen nemen een prominente plaats in binnen het onderzoek naar kunstmatige intelligentie. Tekst-naar-beeldmodellen hebben de afgelopen jaren hoogwaardige resultaten behaald. Echter, methoden voor videosynthese zijn pas recentelijk in ontwikkeling gekomen. Dit artikel presenteert een nieuwe tweestaps latent diffusion architectuur voor tekst-naar-videogeneratie, gebaseerd op het tekst-naar-beeld diffusion model. De eerste stap betreft de synthese van keyframes om de verhaallijn van een video te bepalen, terwijl de tweede stap gewijd is aan het genereren van interpolatieframes om de bewegingen van de scène en objecten vloeiend te maken. We vergelijken verschillende temporele conditioneringsbenaderingen voor de generatie van keyframes. De resultaten tonen het voordeel van het gebruik van afzonderlijke temporele blokken ten opzichte van temporele lagen in termen van metrieken die aspecten van videogeneratiekwaliteit en menselijke voorkeur weerspiegelen. Het ontwerp van ons interpolatiemodel vermindert de rekenkosten aanzienlijk in vergelijking met andere benaderingen voor gemaskeerde frame-interpolatie. Bovendien evalueren we verschillende configuraties van het op MoVQ gebaseerde videodecoderingsschema om de consistentie te verbeteren en hogere PSNR-, SSIM-, MSE- en LPIPS-scores te behalen. Tot slot vergelijken we onze pipeline met bestaande oplossingen en behalen we de top-2 scores overall en de top-1 onder open-source oplossingen: CLIPSIM = 0.2976 en FVD = 433.054. Projectpagina: https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/