MagicDance: Realistische Generierung von menschlichen Tanzvideos mit Transfer von Bewegungen und Gesichtsausdrücken
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
Autoren: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir MagicDance vor, ein diffusionsbasiertes Modell für den Transfer von 2D-Bewegungen und Gesichtsausdrücken in anspruchsvollen menschlichen Tanzvideos. Konkret zielen wir darauf ab, menschliche Tanzvideos einer beliebigen Zielidentität zu generieren, die durch neue Pose-Sequenzen gesteuert werden, während die Identität unverändert bleibt. Zu diesem Zweck schlagen wir eine zweistufige Trainingsstrategie vor, um menschliche Bewegungen und das Erscheinungsbild (z. B. Gesichtsausdrücke, Hautton und Kleidung) zu entkoppeln. Diese besteht aus dem Vortraining eines Appearance-Control-Blocks und der Feinabstimmung eines Appearance-Pose-Joint-Control-Blocks über menschliche Tanzposen desselben Datensatzes. Unser neuartiges Design ermöglicht eine robuste Kontrolle des Erscheinungsbilds mit zeitlich konsistentem Oberkörper, Gesichtsmerkmalen und sogar dem Hintergrund. Das Modell generalisiert zudem gut auf unbekannte menschliche Identitäten und komplexe Bewegungssequenzen, ohne dass eine Feinabstimmung mit zusätzlichen Daten mit diversen menschlichen Attributen erforderlich ist, indem es das Vorwissen von Bilddiffusionsmodellen nutzt. Darüber hinaus ist das vorgeschlagene Modell einfach zu verwenden und kann als Plug-in-Modul/Erweiterung für Stable Diffusion betrachtet werden. Wir demonstrieren auch die Fähigkeit des Modells zur Zero-Shot-2D-Animationsgeneration, die nicht nur den Transfer des Erscheinungsbilds von einer Identität auf eine andere ermöglicht, sondern auch eine cartoonartige Stilisierung allein auf der Grundlage von Pose-Eingaben erlaubt. Umfangreiche Experimente belegen unsere überlegene Leistung auf dem TikTok-Datensatz.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.