Lumiere: ビデオ生成のための時空間拡散モデル
Lumiere: A Space-Time Diffusion Model for Video Generation
January 23, 2024
著者: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI
要旨
私たちはLumiereを紹介します。これは、現実的で多様かつ一貫した動きを描写するビデオを合成するために設計されたテキストからビデオへの拡散モデルであり、ビデオ合成における重要な課題に取り組んでいます。この目的のために、Space-Time U-Netアーキテクチャを導入し、モデル内で一度にビデオの全時間的期間を生成します。これは、遠隔のキーフレームを合成し、その後時間的な超解像を行う既存のビデオモデルとは対照的であり、そのアプローチではグローバルな時間的一貫性を達成することが本質的に困難です。空間的および(特に重要な)時間的なダウンサンプリングとアップサンプリングを展開し、事前に訓練されたテキストから画像への拡散モデルを活用することで、私たちのモデルは、複数の時空間スケールで処理することにより、フルフレームレートの低解像度ビデオを直接生成することを学びます。私たちは、最先端のテキストからビデオへの生成結果を示し、私たちの設計が、画像からビデオ、ビデオインペインティング、スタイライズされた生成など、幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に促進することを示します。
English
We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.