LAMP: 少数ショットに基づく動画生成のためのモーションパターン学習
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
著者: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
要旨
拡散モデルに基づくテキストから画像への生成技術が目覚ましい進歩を遂げる中、その強力な生成能力をテキストからビデオへと拡張することに大きな注目が集まっている。既存の手法は、大規模なテキストとビデオのペアおよび大量の学習リソースを必要とするか、テンプレートビデオと厳密に連動した動きを学習するものである。ビデオ生成における生成自由度とリソースコストのトレードオフをバランスさせることは容易ではない。本研究では、テキストから画像への拡散モデルが、単一のGPU上で8~16のビデオを用いて特定のモーションパターンを学習することを可能にする、少数ショットベースのチューニングフレームワーク「LAMP」を提案する。具体的には、既存のテキストから画像へのモデルをコンテンツ生成に利用する初フレーム条件付きパイプラインを設計し、チューニングされたビデオ拡散モデルが主に動きの学習に集中できるようにした。発展したテキストから画像への技術は、視覚的に魅力的で多様なコンテンツを生成条件として提供し、ビデオの品質と生成自由度を大幅に向上させる。時間次元の特徴を捉えるために、T2Iモデルの事前学習済み2D畳み込み層を新たな時空間モーション学習層に拡張し、アテンションブロックを時間レベルに修正した。さらに、計算コストを伴うがビデオの安定性を向上させる効果的な推論トリック「共有ノイズサンプリング」を開発した。本手法は、実世界の画像アニメーションやビデオ編集などの他のタスクにも柔軟に適用可能である。大規模な実験により、LAMPが限られたデータでモーションパターンを効果的に学習し、高品質なビデオを生成できることが実証された。コードとモデルはhttps://rq-wu.github.io/projects/LAMPで公開されている。
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.