X-Dancer: Generazione di Video di Danza Umana da Musica Espressiva

Abstract

Presentiamo X-Dancer, una nuova pipeline di animazione di immagini guidata dalla musica in modalità zero-shot che crea video di danza umana realistici, diversificati e di lunga durata a partire da una singola immagine statica. Al suo cuore, introduciamo un framework unificato transformer-diffusion, caratterizzato da un modello transformer autoregressivo che sintetizza sequenze estese e sincronizzate con la musica di token per le pose 2D del corpo, della testa e delle mani, che poi guidano un modello diffusion nella produzione di frame di video di danza coerenti e realistici. A differenza dei metodi tradizionali che generano principalmente il movimento umano in 3D, X-Dancer affronta le limitazioni dei dati e migliora la scalabilità modellando un ampio spettro di movimenti di danza 2D, catturando la loro sfumatura allineamento con i battiti musicali attraverso video monoculari facilmente disponibili. Per raggiungere questo obiettivo, costruiamo prima una rappresentazione token spazialmente compositiva a partire dalle etichette delle pose umane 2D associate alle confidenze dei punti chiave, codificando sia i movimenti articolati del corpo su larga scala (ad esempio, parte superiore e inferiore del corpo) sia i movimenti di dettaglio (ad esempio, testa e mani). Progettiamo quindi un modello transformer da musica a movimento che genera autoregressivamente sequenze di token di pose di danza allineate alla musica, incorporando un'attenzione globale sia allo stile musicale che al contesto di movimento precedente. Infine, sfruttiamo un backbone diffusion per animare l'immagine di riferimento con questi token di pose sintetizzati attraverso AdaIN, formando un framework end-to-end completamente differenziabile. I risultati sperimentali dimostrano che X-Dancer è in grado di produrre video di danza sia diversificati che caratterizzati, superando sostanzialmente i metodi all'avanguardia in termini di diversità, espressività e realismo. Codice e modello saranno disponibili per scopi di ricerca.

English

We present X-Dancer, a novel zero-shot music-driven image animation pipeline that creates diverse and long-range lifelike human dance videos from a single static image. As its core, we introduce a unified transformer-diffusion framework, featuring an autoregressive transformer model that synthesize extended and music-synchronized token sequences for 2D body, head and hands poses, which then guide a diffusion model to produce coherent and realistic dance video frames. Unlike traditional methods that primarily generate human motion in 3D, X-Dancer addresses data limitations and enhances scalability by modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment with musical beats through readily available monocular videos. To achieve this, we first build a spatially compositional token representation from 2D human pose labels associated with keypoint confidences, encoding both large articulated body movements (e.g., upper and lower body) and fine-grained motions (e.g., head and hands). We then design a music-to-motion transformer model that autoregressively generates music-aligned dance pose token sequences, incorporating global attention to both musical style and prior motion context. Finally we leverage a diffusion backbone to animate the reference image with these synthesized pose tokens through AdaIN, forming a fully differentiable end-to-end framework. Experimental results demonstrate that X-Dancer is able to produce both diverse and characterized dance videos, substantially outperforming state-of-the-art methods in term of diversity, expressiveness and realism. Code and model will be available for research purposes.

X-Dancer: Generazione di Video di Danza Umana da Musica Espressiva

X-Dancer: Expressive Music to Human Dance Video Generation

Abstract

Support