MagicDance: モーションと表情転送によるリアルな人間のダンス動画生成
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
著者: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
要旨
本研究では、挑戦的な人間のダンス動画における2次元の人体動作と表情転送のための拡散モデル「MagicDance」を提案します。具体的には、新しいポーズシーケンスに基づいて任意のターゲット人物のダンス動画を生成しつつ、その人物の同一性を維持することを目指します。この目的のために、人間の動作と外観(例えば、表情、肌の色、服装)を分離する2段階の学習戦略を提案します。これには、外観制御ブロックの事前学習と、同一データセットの人間のダンスポーズに対する外観-ポーズ-結合制御ブロックの微調整が含まれます。我々の新しい設計により、時間的に一貫した上半身、顔の属性、さらには背景を含む堅牢な外観制御が可能になります。また、このモデルは、画像拡散モデルの事前知識を活用することで、多様な人間の属性を持つ追加データの微調整を必要とせずに、未見の人物や複雑な動作シーケンスにもうまく一般化します。さらに、提案されたモデルは使いやすく、Stable Diffusionのプラグインモジュール/拡張として考えることができます。また、このモデルはゼロショットの2次元アニメーション生成能力も示し、一つの人物から別の人物への外観転送だけでなく、ポーズ入力のみを与えられた場合の漫画風のスタイライゼーションも可能にします。TikTokデータセットにおける広範な実験により、我々の優れた性能が実証されています。
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.