X-Dancer: Generazione di Video di Danza Umana da Musica Espressiva
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Autori: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Abstract
Presentiamo X-Dancer, una nuova pipeline di animazione di immagini guidata dalla musica in modalità zero-shot che crea video di danza umana realistici, diversificati e di lunga durata a partire da una singola immagine statica. Al suo cuore, introduciamo un framework unificato transformer-diffusion, caratterizzato da un modello transformer autoregressivo che sintetizza sequenze estese e sincronizzate con la musica di token per le pose 2D del corpo, della testa e delle mani, che poi guidano un modello diffusion nella produzione di frame di video di danza coerenti e realistici. A differenza dei metodi tradizionali che generano principalmente il movimento umano in 3D, X-Dancer affronta le limitazioni dei dati e migliora la scalabilità modellando un ampio spettro di movimenti di danza 2D, catturando la loro sfumatura allineamento con i battiti musicali attraverso video monoculari facilmente disponibili. Per raggiungere questo obiettivo, costruiamo prima una rappresentazione token spazialmente compositiva a partire dalle etichette delle pose umane 2D associate alle confidenze dei punti chiave, codificando sia i movimenti articolati del corpo su larga scala (ad esempio, parte superiore e inferiore del corpo) sia i movimenti di dettaglio (ad esempio, testa e mani). Progettiamo quindi un modello transformer da musica a movimento che genera autoregressivamente sequenze di token di pose di danza allineate alla musica, incorporando un'attenzione globale sia allo stile musicale che al contesto di movimento precedente. Infine, sfruttiamo un backbone diffusion per animare l'immagine di riferimento con questi token di pose sintetizzati attraverso AdaIN, formando un framework end-to-end completamente differenziabile. I risultati sperimentali dimostrano che X-Dancer è in grado di produrre video di danza sia diversificati che caratterizzati, superando sostanzialmente i metodi all'avanguardia in termini di diversità, espressività e realismo. Codice e modello saranno disponibili per scopi di ricerca.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary