MagicDance: 동작 및 표정 전이를 통한 현실적인 인간 댄스 비디오 생성
MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer
November 18, 2023
저자: Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, Mohammad Soleymani
cs.AI
초록
본 연구에서는 도전적인 인간 댄스 비디오에서 2D 인간 동작과 표정 전이를 위한 확산 기반 모델인 MagicDance를 제안합니다. 구체적으로, 우리는 새로운 포즈 시퀀스에 의해 구동되는 임의의 대상 신원의 인간 댄스 비디오를 생성하면서도 신원을 변경하지 않는 것을 목표로 합니다. 이를 위해, 우리는 인간 동작과 외모(예: 표정, 피부톤, 의상)를 분리하기 위한 두 단계의 학습 전략을 제안합니다. 이 전략은 외모 제어 블록의 사전 학습과 동일한 데이터셋의 인간 댄스 포즈에 대한 외모-포즈-결합 제어 블록의 미세 조정으로 구성됩니다. 우리의 새로운 설계는 시간적으로 일관된 상체, 얼굴 속성, 심지어 배경까지 견고한 외모 제어를 가능하게 합니다. 또한, 이 모델은 이미지 확산 모델의 사전 지식을 활용하여 다양한 인간 속성을 가진 추가 데이터의 미세 조정 없이도 보이지 않는 인간 신원과 복잡한 동작 시퀀스에 대해 잘 일반화됩니다. 더욱이, 제안된 모델은 사용하기 쉬우며 Stable Diffusion의 플러그인 모듈/확장으로 간주될 수 있습니다. 우리는 또한 이 모델의 제로샷 2D 애니메이션 생성 능력을 입증하여, 한 신원에서 다른 신원으로의 외모 전이뿐만 아니라 포즈 입력만으로도 만화 같은 스타일화를 가능하게 합니다. 광범위한 실험을 통해 TikTok 데이터셋에서의 우수한 성능을 입증합니다.
English
In this work, we propose MagicDance, a diffusion-based model for 2D human
motion and facial expression transfer on challenging human dance videos.
Specifically, we aim to generate human dance videos of any target identity
driven by novel pose sequences while keeping the identity unchanged. To this
end, we propose a two-stage training strategy to disentangle human motions and
appearance (e.g., facial expressions, skin tone and dressing), consisting of
the pretraining of an appearance-control block and fine-tuning of an
appearance-pose-joint-control block over human dance poses of the same dataset.
Our novel design enables robust appearance control with temporally consistent
upper body, facial attributes, and even background. The model also generalizes
well on unseen human identities and complex motion sequences without the need
for any fine-tuning with additional data with diverse human attributes by
leveraging the prior knowledge of image diffusion models. Moreover, the
proposed model is easy to use and can be considered as a plug-in
module/extension to Stable Diffusion. We also demonstrate the model's ability
for zero-shot 2D animation generation, enabling not only the appearance
transfer from one identity to another but also allowing for cartoon-like
stylization given only pose inputs. Extensive experiments demonstrate our
superior performance on the TikTok dataset.