MagicDance: Generación Realista de Videos de Baile Humano con Transferencia de Movimientos y Expresiones Faciales
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
Autores: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
Resumen
En este trabajo, proponemos MagicDance, un modelo basado en difusión para la transferencia de movimiento humano 2D y expresiones faciales en videos desafiantes de baile humano. Específicamente, nuestro objetivo es generar videos de baile humano de cualquier identidad objetivo impulsados por secuencias de poses novedosas, manteniendo la identidad sin cambios. Para lograrlo, proponemos una estrategia de entrenamiento en dos etapas para separar los movimientos humanos y la apariencia (por ejemplo, expresiones faciales, tono de piel y vestimenta), que consiste en el preentrenamiento de un bloque de control de apariencia y el ajuste fino de un bloque de control conjunto de apariencia y pose sobre poses de baile humano del mismo conjunto de datos. Nuestro diseño novedoso permite un control robusto de la apariencia con consistencia temporal en la parte superior del cuerpo, atributos faciales e incluso el fondo. El modelo también generaliza bien en identidades humanas no vistas y secuencias de movimiento complejas sin necesidad de ajuste fino adicional con datos que contengan diversos atributos humanos, aprovechando el conocimiento previo de los modelos de difusión de imágenes. Además, el modelo propuesto es fácil de usar y puede considerarse como un módulo/extensión complementario para Stable Diffusion. También demostramos la capacidad del modelo para la generación de animación 2D en modo zero-shot, permitiendo no solo la transferencia de apariencia de una identidad a otra, sino también la estilización de tipo caricatura dado únicamente entradas de poses. Experimentos extensivos demuestran nuestro rendimiento superior en el conjunto de datos de TikTok.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.