FusionFrames: Эффективные архитектурные аспекты для конвейера генерации видео из текста
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline
November 22, 2023
Авторы: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
Аннотация
Методы генерации мультимедиа занимают важное место в исследованиях искусственного интеллекта. Модели преобразования текста в изображение достигли высококачественных результатов за последние несколько лет. Однако методы синтеза видео начали развиваться сравнительно недавно. В данной статье представлена новая двухэтапная архитектура генерации видео из текста на основе латентной диффузии, базирующаяся на модели диффузии для преобразования текста в изображение. Первый этап посвящен синтезу ключевых кадров для формирования сюжетной линии видео, тогда как второй этап сосредоточен на генерации интерполяционных кадров для обеспечения плавности движений сцены и объектов. Мы сравниваем несколько подходов к временному условию для генерации ключевых кадров. Результаты демонстрируют преимущество использования отдельных временных блоков перед временными слоями с точки зрения метрик, отражающих аспекты качества генерации видео и предпочтения пользователей. Конструкция нашей модели интерполяции значительно снижает вычислительные затраты по сравнению с другими подходами к интерполяции маскированных кадров. Кроме того, мы оцениваем различные конфигурации схемы декодирования видео на основе MoVQ для улучшения согласованности и достижения более высоких показателей PSNR, SSIM, MSE и LPIPS. Наконец, мы сравниваем наш подход с существующими решениями и достигаем второго места в общем рейтинге и первого среди открытых решений: CLIPSIM = 0,2976 и FVD = 433,054. Страница проекта: https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/