MagicDance: Realistische Generatie van Menselijke Dansvideo's met Overdracht van Bewegingen en Gezichtsuitdrukkingen
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
Auteurs: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
Samenvatting
In dit werk presenteren we MagicDance, een op diffusie gebaseerd model voor de overdracht van 2D menselijke bewegingen en gezichtsuitdrukkingen in uitdagende dansvideo's. Specifiek streven we ernaar om dansvideo's van elke gewenste identiteit te genereren, aangedreven door nieuwe pose-sequenties, terwijl de identiteit ongewijzigd blijft. Hiertoe stellen we een tweefasige trainingsstrategie voor om menselijke bewegingen en uiterlijk (bijv. gezichtsuitdrukkingen, huidskleur en kleding) te ontwarren, bestaande uit de voorafgaande training van een uiterlijk-controleblok en de verfijning van een uiterlijk-pose-gezamenlijk-controleblok over menselijke dansposes van dezelfde dataset. Onze nieuwe ontwerpkeuze maakt robuuste uiterlijkcontrole mogelijk met temporeel consistente bovenlichamen, gezichtskenmerken en zelfs achtergronden. Het model generaliseert ook goed naar onbekende menselijke identiteiten en complexe bewegingssequenties zonder de noodzaak van aanvullende verfijning met extra data met diverse menselijke kenmerken, door gebruik te maken van de voorkennis van beelddiffusiemodellen. Bovendien is het voorgestelde model gebruiksvriendelijk en kan het worden beschouwd als een plug-in module/extensie voor Stable Diffusion. We demonstreren ook de mogelijkheid van het model voor zero-shot 2D-animatiegeneratie, waardoor niet alleen de uiterlijkoverdracht van de ene naar de andere identiteit mogelijk is, maar ook cartoonachtige stilisering mogelijk wordt gemaakt op basis van alleen pose-inputs. Uitgebreide experimenten tonen onze superieure prestaties aan op de TikTok-dataset.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.