X-Dancer: Expressieve Muziek naar Menselijke Dansvideo Generatie
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Auteurs: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Samenvatting
We presenteren X-Dancer, een innovatieve zero-shot muziekgedreven beeldanimatiepijplijn die diverse en langdurige levensechte menselijke dansvideo's creëert vanuit een enkele statische afbeelding. Als kern introduceren we een geïntegreerd transformer-diffusie raamwerk, met een autoregressief transformermodel dat uitgebreide en muzieksynchrone tokenreeksen synthetiseert voor 2D lichaamshoudingen, hoofdbewegingen en handposities, die vervolgens een diffusiemodel sturen om samenhangende en realistische dansvideobeelden te produceren. In tegenstelling tot traditionele methoden die voornamelijk menselijke beweging in 3D genereren, gaat X-Dancer data beperkingen te lijf en verbetert het de schaalbaarheid door een breed spectrum van 2D dansbewegingen te modelleren, waarbij de subtiele afstemming op muzikale beats wordt vastgelegd via gemakkelijk beschikbare monovideo's. Om dit te bereiken, bouwen we eerst een ruimtelijk compositorische tokenrepresentatie op basis van 2D menselijke houdingslabels die zijn gekoppeld aan keypoint betrouwbaarheden, waarbij zowel grote gearticuleerde lichaamsbewegingen (bijv. boven- en onderlichaam) als fijnmazige bewegingen (bijv. hoofd en handen) worden gecodeerd. Vervolgens ontwerpen we een muziek-naar-beweging transformermodel dat autoregressief muziekafgestemde danshouding-tokenreeksen genereert, waarbij globale aandacht wordt besteed aan zowel muziekstijl als eerdere bewegingscontext. Ten slotte benutten we een diffusie-backbone om de referentieafbeelding te animeren met deze gesynthetiseerde houdingstokens via AdaIN, waardoor een volledig differentieerbaar end-to-end raamwerk ontstaat. Experimentele resultaten tonen aan dat X-Dancer in staat is zowel diverse als karakteristieke dansvideo's te produceren, waarbij het de state-of-the-art methoden aanzienlijk overtreft op het gebied van diversiteit, expressiviteit en realisme. Code en model zullen beschikbaar worden gesteld voor onderzoeksdoeleinden.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary