FusionFrames: Aspectos Arquitetônicos Eficientes para o Pipeline de Geração de Texto para Vídeo
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline
November 22, 2023
Autores: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Resumo
As abordagens de geração multimídia ocupam um lugar de destaque na pesquisa em inteligência artificial. Modelos de texto para imagem alcançaram resultados de alta qualidade nos últimos anos. No entanto, métodos de síntese de vídeo começaram a se desenvolver recentemente. Este artigo apresenta uma nova arquitetura de geração de vídeo a partir de texto baseada em difusão latente em dois estágios, derivada do modelo de difusão de texto para imagem. O primeiro estágio diz respeito à síntese de quadros-chave para definir a narrativa de um vídeo, enquanto o segundo é dedicado à geração de quadros de interpolação para suavizar os movimentos da cena e dos objetos. Comparamos várias abordagens de condicionamento temporal para a geração de quadros-chave. Os resultados mostram a vantagem de usar blocos temporais separados em vez de camadas temporais em termos de métricas que refletem aspectos da qualidade da geração de vídeo e da preferência humana. O design do nosso modelo de interpolação reduz significativamente os custos computacionais em comparação com outras abordagens de interpolação de quadros mascarados. Além disso, avaliamos diferentes configurações do esquema de decodificação de vídeo baseado em MoVQ para melhorar a consistência e alcançar pontuações mais altas em PSNR, SSIM, MSE e LPIPS. Por fim, comparamos nosso pipeline com soluções existentes e alcançamos as duas melhores pontuações gerais e a melhor entre as soluções de código aberto: CLIPSIM = 0,2976 e FVD = 433,054. Página do projeto: https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/