ChatPaper.aiChatPaper

X-Dancer: Generación de videos de danza humana a partir de música expresiva

X-Dancer: Expressive Music to Human Dance Video Generation

February 24, 2025
Autores: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI

Resumen

Presentamos X-Dancer, una novedosa pipeline de animación de imágenes impulsada por música en modo zero-shot que genera videos diversos y de larga duración con movimientos realistas de baile humano a partir de una única imagen estática. En su núcleo, introducimos un marco unificado de transformador-difusión, que incluye un modelo transformador autoregresivo que sintetiza secuencias extendidas y sincronizadas con la música de tokens para poses 2D del cuerpo, la cabeza y las manos, las cuales guían a un modelo de difusión para producir fotogramas coherentes y realistas de videos de baile. A diferencia de los métodos tradicionales que principalmente generan movimiento humano en 3D, X-Dancer aborda las limitaciones de datos y mejora la escalabilidad al modelar un amplio espectro de movimientos de baile en 2D, capturando su alineación matizada con los ritmos musicales a través de videos monoculares fácilmente disponibles. Para lograr esto, primero construimos una representación de tokens espacialmente composicional a partir de etiquetas de poses humanas 2D asociadas con confianzas de puntos clave, codificando tanto movimientos articulados amplios del cuerpo (por ejemplo, parte superior e inferior) como movimientos detallados (por ejemplo, cabeza y manos). Luego diseñamos un modelo transformador de música a movimiento que genera autoregresivamente secuencias de tokens de poses de baile alineadas con la música, incorporando atención global tanto al estilo musical como al contexto de movimiento previo. Finalmente, aprovechamos un backbone de difusión para animar la imagen de referencia con estos tokens de poses sintetizados a través de AdaIN, formando un marco completamente diferenciable de extremo a extremo. Los resultados experimentales demuestran que X-Dancer es capaz de producir videos de baile tanto diversos como caracterizados, superando sustancialmente a los métodos más avanzados en términos de diversidad, expresividad y realismo. El código y el modelo estarán disponibles para fines de investigación.
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline that creates diverse and long-range lifelike human dance videos from a single static image. As its core, we introduce a unified transformer-diffusion framework, featuring an autoregressive transformer model that synthesize extended and music-synchronized token sequences for 2D body, head and hands poses, which then guide a diffusion model to produce coherent and realistic dance video frames. Unlike traditional methods that primarily generate human motion in 3D, X-Dancer addresses data limitations and enhances scalability by modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment with musical beats through readily available monocular videos. To achieve this, we first build a spatially compositional token representation from 2D human pose labels associated with keypoint confidences, encoding both large articulated body movements (e.g., upper and lower body) and fine-grained motions (e.g., head and hands). We then design a music-to-motion transformer model that autoregressively generates music-aligned dance pose token sequences, incorporating global attention to both musical style and prior motion context. Finally we leverage a diffusion backbone to animate the reference image with these synthesized pose tokens through AdaIN, forming a fully differentiable end-to-end framework. Experimental results demonstrate that X-Dancer is able to produce both diverse and characterized dance videos, substantially outperforming state-of-the-art methods in term of diversity, expressiveness and realism. Code and model will be available for research purposes.

Summary

AI-Generated Summary

PDF113February 25, 2025