CustomCrafter:動きと概念の構成能力を保持したカスタマイズされたビデオ生成
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
August 23, 2024
著者: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI
要旨
カスタマイズされたビデオ生成は、テキストプロンプトと被写体の参照画像によってガイドされた高品質のビデオを生成することを目指しています。ただし、静止画像のみでトレーニングされているため、被写体学習の微調整プロセスはビデオ拡散モデル(VDMs)の概念の組み合わせと動きを生成する能力を妨げます。これらの能力を回復するために、一部の手法は、モデルを微調整またはガイドするためにプロンプトに類似した追加のビデオを使用します。これにより、ガイドビデオを頻繁に変更し、異なる動きを生成する際にはモデルを再調整する必要があり、ユーザーにとって非常に不便です。本論文では、追加のビデオや微調整なしでモデルの動き生成と概念の組み合わせ能力を保持する新しいフレームワークであるCustomCrafterを提案します。概念の組み合わせ能力を保持するために、VDMs内の数少ないパラメータを更新するプラグアンドプレイモジュールを設計し、新しい被写体の外観の詳細を捉える能力と概念の組み合わせ能力を強化します。動き生成に関して、VDMsは、ノイズ除去の初期段階でビデオの動きを回復しようとする傾向があり、後の段階では被写体の詳細の回復に焦点を当てます。したがって、動的重み付けビデオサンプリング戦略を提案します。被写体学習モジュールのプラグアンドプレイ性を利用して、このモジュールがノイズ除去の初期段階で動き生成に与える影響を軽減し、VDMsの動き生成能力を保持します。ノイズ除去の後半では、このモジュールを復元して指定された被写体の外観の詳細を修復し、被写体の外観の忠実性を確保します。実験結果は、当社の手法が従来の手法と比較して著しい改善を示していることを示しています。
English
Customized video generation aims to generate high-quality videos guided by
text prompts and subject's reference images. However, since it is only trained
on static images, the fine-tuning process of subject learning disrupts
abilities of video diffusion models (VDMs) to combine concepts and generate
motions. To restore these abilities, some methods use additional video similar
to the prompt to fine-tune or guide the model. This requires frequent changes
of guiding videos and even re-tuning of the model when generating different
motions, which is very inconvenient for users. In this paper, we propose
CustomCrafter, a novel framework that preserves the model's motion generation
and conceptual combination abilities without additional video and fine-tuning
to recovery. For preserving conceptual combination ability, we design a
plug-and-play module to update few parameters in VDMs, enhancing the model's
ability to capture the appearance details and the ability of concept
combinations for new subjects. For motion generation, we observed that VDMs
tend to restore the motion of video in the early stage of denoising, while
focusing on the recovery of subject details in the later stage. Therefore, we
propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our
subject learning modules, we reduce the impact of this module on motion
generation in the early stage of denoising, preserving the ability to generate
motion of VDMs. In the later stage of denoising, we restore this module to
repair the appearance details of the specified subject, thereby ensuring the
fidelity of the subject's appearance. Experimental results show that our method
has a significant improvement compared to previous methods.Summary
AI-Generated Summary