MagicDance: Generazione Realistica di Video di Danza Umana con Trasferimento di Movimenti ed Espressioni Facciali
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
Autori: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
Abstract
In questo lavoro, proponiamo MagicDance, un modello basato su diffusione per il trasferimento di movimenti umani 2D ed espressioni facciali su video di danza umana particolarmente complessi. Nello specifico, miriamo a generare video di danza umana con qualsiasi identità target guidati da nuove sequenze di pose, mantenendo invariata l'identità. A tal fine, proponiamo una strategia di addestramento in due fasi per separare i movimenti umani dall'aspetto (ad esempio, espressioni facciali, tonalità della pelle e abbigliamento), che consiste nel pre-addestramento di un blocco di controllo dell'aspetto e nel fine-tuning di un blocco di controllo congiunto aspetto-pose sulle pose di danza umana dello stesso dataset. Il nostro design innovativo consente un controllo robusto dell'aspetto con una parte superiore del corpo, attributi facciali e persino lo sfondo temporalmente coerenti. Il modello generalizza bene anche su identità umane non viste e sequenze di movimenti complessi, senza la necessità di ulteriori fine-tuning con dati aggiuntivi che presentano attributi umani diversi, sfruttando la conoscenza a priori dei modelli di diffusione di immagini. Inoltre, il modello proposto è facile da usare e può essere considerato come un modulo/estensione plug-in per Stable Diffusion. Dimostriamo anche la capacità del modello di generare animazioni 2D in modalità zero-shot, consentendo non solo il trasferimento dell'aspetto da un'identità all'altra, ma anche la stilizzazione in stile cartone animato partendo solo da input di pose. Esperimenti estensivi dimostrano la nostra performance superiore sul dataset TikTok.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.