VideoElevator: 多機能なテキストから画像への拡散モデルによるビデオ生成品質の向上
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
著者: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
要旨
テキストから画像への拡散モデル(T2I)は、現実的で美的な画像を作成する前例のない能力を実証しています。一方で、テキストから動画への拡散モデル(T2V)は、トレーニング動画の質と量が不十分であるため、フレーム品質とテキストの整合性においてまだ大きく遅れを取っています。本論文では、T2Iの優れた能力を活用してT2Vの性能を向上させる、トレーニング不要でプラグアンドプレイの手法であるVideoElevatorを紹介します。従来のT2Vサンプリング(すなわち、時間的および空間的モデリング)とは異なり、VideoElevatorは各サンプリングステップを明示的に時間的モーションの洗練と空間的品質の向上に分解します。具体的には、時間的モーションの洗練はカプセル化されたT2Vを使用して時間的一貫性を強化し、その後T2Iに必要なノイズ分布に逆変換します。次に、空間的品質の向上は拡張されたT2Iを活用して直接ノイズの少ない潜在変数を予測し、より写真のような詳細を追加します。私たちは、さまざまなT2VとT2Iの組み合わせのもとで広範なプロンプトに対して実験を行いました。結果は、VideoElevatorが基本的なT2Iを使用してT2Vベースラインの性能を向上させるだけでなく、個別化されたT2Iを使用してスタイリッシュな動画合成を促進することを示しています。私たちのコードはhttps://github.com/YBYBZhang/VideoElevatorで公開されています。
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.