FusionFrames: テキスト動画生成パイプラインのための効率的なアーキテクチャ設計
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline
November 22, 2023
著者: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov
cs.AI
要旨
マルチメディア生成手法は、人工知能研究において重要な位置を占めている。テキストから画像を生成するモデルは、過去数年間で高品質な結果を達成してきた。しかし、ビデオ合成手法の本格的な発展は最近始まったばかりである。本論文では、テキストから画像を生成する拡散モデルを基盤とした、新しい2段階潜在拡散テキスト-to-ビデオ生成アーキテクチャを提案する。第一段階はビデオのストーリーラインを構築するキーフレーム合成を、第二段階はシーンやオブジェクトの動きを滑らかにする補間フレーム生成を担当する。キーフレーム生成において複数の時間的条件付け手法を比較した結果、ビデオ生成品質の側面を反映する指標と人間の選好度の両方において、時間層を使用するよりも独立した時間ブロックを利用する利点が示された。提案する補間モデルの設計は、他のマスクフレーム補間手法と比較して計算コストを大幅に削減する。さらに、一貫性を改善しより高いPSNR、SSIM、MSE、LPIPSスコアを達成するため、MoVQベースのビデオ復号化スキームの様々な構成を評価した。最終的に、既存のソリューションと提案パイプラインを比較した結果、総合でトップ2、オープンソースソリューションの中ではトップ1のスコア(CLIPSIM = 0.2976、FVD = 433.054)を達成した。プロジェクトページ:https://ai-forever.github.io/kandinsky-video/
English
Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/