X-Dancer: Geração de Vídeos de Dança Humana a partir de Música Expressiva
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Autores: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Resumo
Apresentamos o X-Dancer, um novo pipeline de animação de imagens impulsionada por música em zero-shot que cria vídeos diversos e de longa duração de dança humana realista a partir de uma única imagem estática. Em seu núcleo, introduzimos um framework unificado de transformer-difusão, destacando um modelo transformer autorregressivo que sintetiza sequências estendidas e sincronizadas com a música de tokens para poses 2D do corpo, cabeça e mãos, que então guiam um modelo de difusão para produzir quadros de vídeo de dança coerentes e realistas. Diferente dos métodos tradicionais que geram principalmente movimento humano em 3D, o X-Dancer aborda limitações de dados e aumenta a escalabilidade ao modelar um amplo espectro de movimentos de dança 2D, capturando seu alinhamento sutil com batidas musicais por meio de vídeos monoculares facilmente disponíveis. Para alcançar isso, primeiro construímos uma representação de token espacialmente composicional a partir de rótulos de poses humanas 2D associados a confianças de pontos-chave, codificando tanto grandes movimentos articulados do corpo (por exemplo, parte superior e inferior do corpo) quanto movimentos refinados (por exemplo, cabeça e mãos). Em seguida, projetamos um modelo transformer de música-para-movimento que gera autorregressivamente sequências de tokens de poses de dança alinhadas com a música, incorporando atenção global tanto ao estilo musical quanto ao contexto de movimento anterior. Por fim, aproveitamos uma estrutura de difusão para animar a imagem de referência com esses tokens de poses sintetizados por meio de AdaIN, formando um framework totalmente diferenciável de ponta a ponta. Resultados experimentais demonstram que o X-Dancer é capaz de produzir vídeos de dança diversos e caracterizados, superando substancialmente os métodos state-of-the-art em termos de diversidade, expressividade e realismo. Código e modelo estarão disponíveis para fins de pesquisa.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary