X-Tänzer: Generierung von ausdrucksstarker Musik zu menschlichen Tanzvideos
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Autoren: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Zusammenfassung
Wir präsentieren X-Dancer, eine innovative Zero-Shot-Musik-getriebene Bildanimations-Pipeline, die vielfältige und weitreichende lebensechte menschliche Tanzvideos aus einem einzelnen statischen Bild erzeugt. Im Kern stellen wir ein vereinheitlichtes Transformer-Diffusion-Framework vor, das ein autoregressives Transformer-Modell umfasst, das erweiterte und musiksynchronisierte Token-Sequenzen für 2D-Körper-, Kopf- und Hand-Posen synthetisiert, die dann ein Diffusionsmodell anleiten, um kohärente und realistische Tanzvideo-Frames zu erzeugen. Im Gegensatz zu traditionellen Methoden, die hauptsächlich menschliche Bewegungen in 3D generieren, begegnet X-Dancer den Datenbeschränkungen und verbessert die Skalierbarkeit, indem es ein breites Spektrum von 2D-Tanzbewegungen modelliert, die ihre nuancierte Ausrichtung mit musikalischen Beats durch leicht verfügbare monokulare Videos erfassen. Um dies zu erreichen, bauen wir zunächst eine räumlich zusammengesetzte Token-Repräsentation aus 2D-Mensch-Posenmarkierungen in Verbindung mit Keypoint-Vertrauenswerten auf, die sowohl große, gegliederte Körperbewegungen (z. B. Ober- und Unterkörper) als auch feingliedrige Bewegungen (z. B. Kopf und Hände) codieren. Anschließend entwerfen wir ein Musik-zu-Bewegung-Transformer-Modell, das autoregressiv musikalignierte Tanz-Posen-Token-Sequenzen generiert, indem es globale Aufmerksamkeit sowohl auf musikalischen Stil als auch auf vorherigen Bewegungskontext lenkt. Schließlich nutzen wir ein Diffusions-Grundgerüst, um das Referenzbild mit diesen synthetisierten Posen-Tokens durch AdaIN zu animieren, und bilden so ein vollständig differenzierbares End-to-End-Framework. Experimentelle Ergebnisse zeigen, dass X-Dancer in der Lage ist, sowohl vielfältige als auch charakterisierte Tanzvideos zu produzieren, wobei es in Bezug auf Vielfalt, Ausdruckskraft und Realismus wesentlich besser abschneidet als State-of-the-Art-Methoden. Code und Modell werden für Forschungszwecke verfügbar sein.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary