FusionFrames: Aspetti Architettonici Efficienti per la Pipeline di Generazione da Testo a Video
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline
November 22, 2023
Autori: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Abstract
I metodi di generazione multimediale occupano un posto di rilievo nella ricerca sull'intelligenza artificiale. I modelli di testo-immagine hanno raggiunto risultati di alta qualità negli ultimi anni. Tuttavia, i metodi di sintesi video hanno iniziato a svilupparsi solo recentemente. Questo articolo presenta una nuova architettura di generazione video da testo basata su un modello di diffusione latente in due fasi, derivato dal modello di diffusione testo-immagine. La prima fase riguarda la sintesi dei fotogrammi chiave per delineare la trama di un video, mentre la seconda è dedicata alla generazione di fotogrammi di interpolazione per rendere fluidi i movimenti della scena e degli oggetti. Confrontiamo diversi approcci di condizionamento temporale per la generazione dei fotogrammi chiave. I risultati mostrano il vantaggio dell'uso di blocchi temporali separati rispetto agli strati temporali in termini di metriche che riflettono gli aspetti della qualità della generazione video e la preferenza umana. Il design del nostro modello di interpolazione riduce significativamente i costi computazionali rispetto ad altri approcci di interpolazione di fotogrammi mascherati. Inoltre, valutiamo diverse configurazioni dello schema di decodifica video basato su MoVQ per migliorare la coerenza e ottenere punteggi più elevati in PSNR, SSIM, MSE e LPIPS. Infine, confrontiamo la nostra pipeline con le soluzioni esistenti e raggiungiamo i punteggi top-2 complessivi e top-1 tra le soluzioni open-source: CLIPSIM = 0.2976 e FVD = 433.054. Pagina del progetto: https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/