テキストからビデオへの拡散モデルにおけるモーションのカスタマイズ
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
著者: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
要旨
テキストからビデオを生成するモデルにカスタムモーションを追加する手法を提案し、元のトレーニングデータに含まれるモーションを超える能力を拡張します。特定の動きを示す少数のビデオサンプルを入力として活用することで、本手法は入力されたモーションパターンを学習し、多様なテキスト指定シナリオに一般化します。我々の貢献は三つあります。第一に、結果を達成するために、既存のテキストからビデオを生成するモデルをファインチューニングし、入力例に描かれたモーションと新しいユニークなトークンとの間の新たなマッピングを学習します。新しいカスタムモーションへの過剰適合を避けるため、ビデオに対する正則化手法を導入します。第二に、事前学習済みモデル内のモーション事前分布を活用することで、本手法は複数の人物がカスタムモーションを行う新規ビデオを生成でき、また他のモーションと組み合わせてそのモーションを呼び出すことが可能です。さらに、本アプローチは個別化された対象のモーションと外観のマルチモーダルなカスタマイズにも拡張され、ユニークなキャラクターと特徴的なモーションを備えたビデオの生成を可能にします。第三に、本手法を検証するため、学習されたカスタムモーションを定量的に評価する手法を導入し、体系的なアブレーションスタディを実施します。本手法が、モーションカスタマイズタスクに拡張された場合、従来の外観ベースのカスタマイズ手法を大幅に上回ることを示します。
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.