ChatPaper.aiChatPaper

MagicDance: Geração Realista de Vídeos de Dança Humana com Transferência de Movimentos e Expressões Faciais

MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer

November 18, 2023
Autores: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI

Resumo

Neste trabalho, propomos o MagicDance, um modelo baseado em difusão para transferência de movimento humano 2D e expressões faciais em vídeos desafiadores de dança humana. Especificamente, nosso objetivo é gerar vídeos de dança humana de qualquer identidade alvo guiados por sequências de poses novas, mantendo a identidade inalterada. Para isso, propomos uma estratégia de treinamento em duas etapas para separar os movimentos humanos e a aparência (por exemplo, expressões faciais, tom de pele e vestimenta), consistindo no pré-treinamento de um bloco de controle de aparência e no ajuste fino de um bloco de controle conjunto de aparência e pose sobre poses de dança humana do mesmo conjunto de dados. Nosso design inovador permite um controle robusto da aparência com consistência temporal na parte superior do corpo, atributos faciais e até mesmo no fundo. O modelo também generaliza bem em identidades humanas não vistas e sequências de movimento complexas sem a necessidade de ajuste fino com dados adicionais contendo diversos atributos humanos, aproveitando o conhecimento prévio de modelos de difusão de imagens. Além disso, o modelo proposto é fácil de usar e pode ser considerado como um módulo/extensão plug-in para o Stable Diffusion. Também demonstramos a capacidade do modelo para geração de animação 2D zero-shot, permitindo não apenas a transferência de aparência de uma identidade para outra, mas também possibilitando a estilização no estilo de desenho animado com base apenas em entradas de pose. Experimentos extensivos demonstram nosso desempenho superior no conjunto de dados TikTok.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human motion and facial expression transfer on challenging human dance videos. Specifically, we aim to generate human dance videos of any target identity driven by novel pose sequences while keeping the identity unchanged. To this end, we propose a two-stage training strategy to disentangle human motions and appearance (e.g., facial expressions, skin tone and dressing), consisting of the pretraining of an appearance-control block and fine-tuning of an appearance-pose-joint-control block over human dance poses of the same dataset. Our novel design enables robust appearance control with temporally consistent upper body, facial attributes, and even background. The model also generalizes well on unseen human identities and complex motion sequences without the need for any fine-tuning with additional data with diverse human attributes by leveraging the prior knowledge of image diffusion models. Moreover, the proposed model is easy to use and can be considered as a plug-in module/extension to Stable Diffusion. We also demonstrate the model's ability for zero-shot 2D animation generation, enabling not only the appearance transfer from one identity to another but also allowing for cartoon-like stylization given only pose inputs. Extensive experiments demonstrate our superior performance on the TikTok dataset.
PDF322December 15, 2024