MagicDance : Génération réaliste de vidéos de danse humaine avec transfert de mouvements et d'expressions faciales
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
Auteurs: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
Résumé
Dans ce travail, nous proposons MagicDance, un modèle basé sur la diffusion pour le transfert de mouvements humains 2D et d'expressions faciales sur des vidéos de danse humaines complexes. Plus précisément, nous visons à générer des vidéos de danse humaine pour toute identité cible, guidées par des séquences de poses inédites, tout en conservant l'identité inchangée. Pour ce faire, nous proposons une stratégie d'apprentissage en deux étapes visant à dissocier les mouvements humains de l'apparence (par exemple, les expressions faciales, la teinte de la peau et les vêtements). Cette stratégie comprend un pré-entraînement d'un bloc de contrôle de l'apparence et un ajustement fin d'un bloc de contrôle conjoint apparence-pose sur des poses de danse humaine issues du même ensemble de données. Notre conception novatrice permet un contrôle robuste de l'apparence avec une cohérence temporelle du haut du corps, des attributs faciaux et même de l'arrière-plan. Le modèle généralise également bien sur des identités humaines inédites et des séquences de mouvements complexes, sans nécessiter d'ajustement fin avec des données supplémentaires présentant des attributs humains variés, en exploitant les connaissances préalables des modèles de diffusion d'images. De plus, le modèle proposé est facile à utiliser et peut être considéré comme un module/extension plug-in à Stable Diffusion. Nous démontrons également la capacité du modèle à générer des animations 2D en zero-shot, permettant non seulement le transfert d'apparence d'une identité à une autre, mais aussi une stylisation de type cartoon à partir de simples entrées de poses. Des expériences approfondies montrent notre performance supérieure sur l'ensemble de données TikTok.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.