MagicDance: Генерация реалистичных видео с танцующими людьми с переносом движений и мимики
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
Авторы: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
Аннотация
В данной работе мы представляем MagicDance — диффузионную модель для переноса двумерных движений человека и мимики на сложных видео с танцами. В частности, наша цель — генерировать видео танцев для любой целевой идентичности, управляемые новыми последовательностями поз, при этом сохраняя идентичность неизменной. Для этого мы предлагаем двухэтапную стратегию обучения, которая разделяет движения человека и его внешний вид (например, мимику, тон кожи и одежду). Эта стратегия включает предварительное обучение блока управления внешним видом и тонкую настройку блока совместного управления внешним видом и позами на основе танцевальных поз из одного и того же набора данных. Наш новый подход обеспечивает надежное управление внешним видом с временной согласованностью верхней части тела, черт лица и даже фона. Модель также хорошо обобщается на невидимые идентичности и сложные последовательности движений без необходимости дополнительной тонкой настройки на данных с разнообразными атрибутами человека, используя априорные знания диффузионных моделей изображений. Более того, предложенная модель проста в использовании и может рассматриваться как подключаемый модуль или расширение для Stable Diffusion. Мы также демонстрируем способность модели к генерации двумерной анимации с нуля, что позволяет не только переносить внешний вид с одной идентичности на другую, но и создавать стилизацию в мультяшном стиле, используя только входные данные о позах. Многочисленные эксперименты подтверждают превосходную производительность нашей модели на наборе данных TikTok.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.