Still-Moving: カスタム動画データなしでのカスタマイズ動画生成
Still-Moving: Customized Video Generation without Customized Video Data
July 11, 2024
著者: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI
要旨
テキストから画像(T2I)モデルのカスタマイズは、特にパーソナライゼーション、スタイライゼーション、条件付き生成などの分野で、最近大きな進展を遂げています。しかし、この進歩をビデオ生成に拡張することはまだ初期段階にあり、主にカスタマイズされたビデオデータの不足が原因です。本研究では、カスタマイズされたビデオデータを必要とせずに、テキストからビデオ(T2V)モデルをカスタマイズするための新しい汎用フレームワーク「Still-Moving」を提案します。このフレームワークは、ビデオモデルがテキストから画像(T2I)モデル(例えば、インフレーションを介して)の上に構築されている主要なT2V設計に適用されます。私たちは、静止画像データのみでトレーニングされたカスタマイズされたT2Iモデル(例えば、DreamBoothやStyleDropを使用)へのアクセスを前提としています。カスタマイズされたT2Iモデルの重みをT2Vモデルに単純に組み込むと、しばしば重大なアーティファクトが発生するか、カスタマイズデータへの十分な忠実度が得られません。この問題を克服するために、注入されたT2I層によって生成される特徴を調整する軽量の「Spatial Adapter」をトレーニングします。重要なことに、私たちのアダプターは、カスタマイズされたT2Iモデルによって生成された画像サンプルから構築された「凍結ビデオ」(つまり、繰り返し画像)でトレーニングされます。このトレーニングは、新しい「Motion Adapter」モジュールによって促進され、このような静的ビデオでトレーニングしながら、ビデオモデルのモーションプライアを保持することができます。テスト時には、Motion Adapterモジュールを削除し、トレーニングされたSpatial Adapterのみを残します。これにより、T2Vモデルのモーションプライアを復元しながら、カスタマイズされたT2Iモデルの空間的プライアに忠実になります。私たちは、パーソナライズされた生成、スタイライズされた生成、条件付き生成など、多様なタスクにおいて、このアプローチの有効性を実証します。評価されたすべてのシナリオにおいて、私たちの方法は、カスタマイズされたT2Iモデルの空間的プライアとT2Vモデルによって提供されるモーションプライアをシームレスに統合します。
English
Customizing text-to-image (T2I) models has seen tremendous progress recently,
particularly in areas such as personalization, stylization, and conditional
generation. However, expanding this progress to video generation is still in
its infancy, primarily due to the lack of customized video data. In this work,
we introduce Still-Moving, a novel generic framework for customizing a
text-to-video (T2V) model, without requiring any customized video data. The
framework applies to the prominent T2V design where the video model is built
over a text-to-image (T2I) model (e.g., via inflation). We assume access to a
customized version of the T2I model, trained only on still image data (e.g.,
using DreamBooth or StyleDrop). Naively plugging in the weights of the
customized T2I model into the T2V model often leads to significant artifacts or
insufficient adherence to the customization data. To overcome this issue, we
train lightweight Spatial Adapters that adjust the features produced
by the injected T2I layers. Importantly, our adapters are trained on
"frozen videos" (i.e., repeated images), constructed from image
samples generated by the customized T2I model. This training is facilitated by
a novel Motion Adapter module, which allows us to train on such
static videos while preserving the motion prior of the video model. At test
time, we remove the Motion Adapter modules and leave in only the trained
Spatial Adapters. This restores the motion prior of the T2V model while
adhering to the spatial prior of the customized T2I model. We demonstrate the
effectiveness of our approach on diverse tasks including personalized,
stylized, and conditional generation. In all evaluated scenarios, our method
seamlessly integrates the spatial prior of the customized T2I model with a
motion prior supplied by the T2V model.Summary
AI-Generated Summary