ChatPaper.aiChatPaper

FusionFrames : Aspects architecturaux efficaces pour le pipeline de génération texte-vidéo

FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline

November 22, 2023
Auteurs: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI

Résumé

Les approches de génération multimédia occupent une place prépondérante dans la recherche en intelligence artificielle. Les modèles de texte-à-image ont atteint des résultats de haute qualité au cours des dernières années. Cependant, les méthodes de synthèse vidéo ont récemment commencé à se développer. Cet article présente une nouvelle architecture de génération texte-à-vidéo en deux étapes basée sur un modèle de diffusion texte-à-image. La première étape concerne la synthèse des images clés pour définir la trame narrative d'une vidéo, tandis que la seconde est consacrée à la génération d'images d'interpolation pour rendre les mouvements de la scène et des objets fluides. Nous comparons plusieurs approches de conditionnement temporel pour la génération des images clés. Les résultats montrent l'avantage d'utiliser des blocs temporels séparés par rapport aux couches temporelles en termes de métriques reflétant les aspects de qualité de la génération vidéo et les préférences humaines. La conception de notre modèle d'interpolation réduit considérablement les coûts de calcul par rapport aux autres approches d'interpolation d'images masquées. De plus, nous évaluons différentes configurations du schéma de décodage vidéo basé sur MoVQ pour améliorer la cohérence et obtenir des scores plus élevés en PSNR, SSIM, MSE et LPIPS. Enfin, nous comparons notre pipeline avec les solutions existantes et obtenons les scores top-2 globalement et top-1 parmi les solutions open-source : CLIPSIM = 0,2976 et FVD = 433,054. Page du projet : https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial intelligence research. Text-to-image models achieved high-quality results over the last few years. However, video synthesis methods recently started to develop. This paper presents a new two-stage latent diffusion text-to-video generation architecture based on the text-to-image diffusion model. The first stage concerns keyframes synthesis to figure the storyline of a video, while the second one is devoted to interpolation frames generation to make movements of the scene and objects smooth. We compare several temporal conditioning approaches for keyframes generation. The results show the advantage of using separate temporal blocks over temporal layers in terms of metrics reflecting video generation quality aspects and human preference. The design of our interpolation model significantly reduces computational costs compared to other masked frame interpolation approaches. Furthermore, we evaluate different configurations of MoVQ-based video decoding scheme to improve consistency and achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our pipeline with existing solutions and achieve top-2 scores overall and top-1 among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page: https://ai-forever.github.io/kandinsky-video/
PDF584December 15, 2024