X-Dancer: Generación de videos de danza humana a partir de música expresiva
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
Autores: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
Resumen
Presentamos X-Dancer, una novedosa pipeline de animación de imágenes impulsada por música en modo zero-shot que genera videos diversos y de larga duración con movimientos realistas de baile humano a partir de una única imagen estática. En su núcleo, introducimos un marco unificado de transformador-difusión, que incluye un modelo transformador autoregresivo que sintetiza secuencias extendidas y sincronizadas con la música de tokens para poses 2D del cuerpo, la cabeza y las manos, las cuales guían a un modelo de difusión para producir fotogramas coherentes y realistas de videos de baile. A diferencia de los métodos tradicionales que principalmente generan movimiento humano en 3D, X-Dancer aborda las limitaciones de datos y mejora la escalabilidad al modelar un amplio espectro de movimientos de baile en 2D, capturando su alineación matizada con los ritmos musicales a través de videos monoculares fácilmente disponibles. Para lograr esto, primero construimos una representación de tokens espacialmente composicional a partir de etiquetas de poses humanas 2D asociadas con confianzas de puntos clave, codificando tanto movimientos articulados amplios del cuerpo (por ejemplo, parte superior e inferior) como movimientos detallados (por ejemplo, cabeza y manos). Luego diseñamos un modelo transformador de música a movimiento que genera autoregresivamente secuencias de tokens de poses de baile alineadas con la música, incorporando atención global tanto al estilo musical como al contexto de movimiento previo. Finalmente, aprovechamos un backbone de difusión para animar la imagen de referencia con estos tokens de poses sintetizados a través de AdaIN, formando un marco completamente diferenciable de extremo a extremo. Los resultados experimentales demuestran que X-Dancer es capaz de producir videos de baile tanto diversos como caracterizados, superando sustancialmente a los métodos más avanzados en términos de diversidad, expresividad y realismo. El código y el modelo estarán disponibles para fines de investigación.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary