FusionFrames: Aspectos Arquitectónicos Eficientes para la Generación de Texto a Video
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline
November 22, 2023
Autores: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Resumen
Los enfoques de generación multimedia ocupan un lugar destacado en la investigación de inteligencia artificial. Los modelos de texto a imagen han logrado resultados de alta calidad en los últimos años. Sin embargo, los métodos de síntesis de video han comenzado a desarrollarse recientemente. Este artículo presenta una nueva arquitectura de generación de texto a video basada en difusión latente en dos etapas, construida sobre el modelo de difusión de texto a imagen. La primera etapa se enfoca en la síntesis de fotogramas clave para definir la narrativa del video, mientras que la segunda está dedicada a la generación de fotogramas de interpolación para suavizar los movimientos de la escena y los objetos. Comparamos varios enfoques de condicionamiento temporal para la generación de fotogramas clave. Los resultados muestran la ventaja de utilizar bloques temporales separados sobre capas temporales en términos de métricas que reflejan aspectos de calidad en la generación de video y la preferencia humana. El diseño de nuestro modelo de interpolación reduce significativamente los costos computacionales en comparación con otros enfoques de interpolación de fotogramas enmascarados. Además, evaluamos diferentes configuraciones del esquema de decodificación de video basado en MoVQ para mejorar la consistencia y lograr puntuaciones más altas en PSNR, SSIM, MSE y LPIPS. Finalmente, comparamos nuestra pipeline con soluciones existentes y alcanzamos los puntajes top-2 en general y top-1 entre las soluciones de código abierto: CLIPSIM = 0.2976 y FVD = 433.054. Página del proyecto: https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/