X-Dancer : Génération de vidéos de danse humaine à partir de musique expressive
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Auteurs: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Résumé
Nous présentons X-Dancer, un nouveau pipeline d'animation d'images piloté par la musique en mode zero-shot, capable de créer des vidéos de danse humaine réalistes, diversifiées et de longue durée à partir d'une seule image statique. Au cœur de ce système, nous introduisons un cadre unifié basé sur des transformers et de la diffusion, mettant en avant un modèle transformer autorégressif qui synthétise des séquences de tokens étendues et synchronisées avec la musique pour les poses 2D du corps, de la tête et des mains. Ces séquences guident ensuite un modèle de diffusion pour produire des images de danse cohérentes et réalistes. Contrairement aux méthodes traditionnelles qui génèrent principalement des mouvements humains en 3D, X-Dancer surmonte les limitations de données et améliore l'évolutivité en modélisant un large spectre de mouvements de danse en 2D, capturant leur alignement nuancé avec les rythmes musicaux grâce à des vidéos monoculaires facilement accessibles. Pour y parvenir, nous construisons d'abord une représentation tokenisée spatialement compositionnelle à partir d'étiquettes de poses humaines 2D associées à des scores de confiance de points clés, encodant à la fois les grands mouvements articulés du corps (par exemple, le haut et le bas du corps) et les mouvements fins (par exemple, la tête et les mains). Nous concevons ensuite un modèle transformer musique-vers-mouvement qui génère de manière autorégressive des séquences de tokens de poses de danse alignées sur la musique, intégrant une attention globale à la fois au style musical et au contexte des mouvements précédents. Enfin, nous exploitons un modèle de diffusion pour animer l'image de référence avec ces tokens de poses synthétisés via AdaIN, formant ainsi un cadre end-to-end entièrement différentiable. Les résultats expérimentaux démontrent que X-Dancer est capable de produire des vidéos de danse à la fois diversifiées et caractérisées, surpassant largement les méthodes de pointe en termes de diversité, d'expressivité et de réalisme. Le code et le modèle seront disponibles à des fins de recherche.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary