MACE-Dance: Expertos en Cascada de Movimiento-Apariencia para la Generación de Videos de Baile Dirigidos por Música
MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation
May 7, 2026
Autores: Kaixing Yang, Jiashu Zhu, Xulong Tang, Ziqiao Peng, Xiangyue Zhang, Puwei Wang, Jiahong Wu, Xiangxiang Chu, Hongyan Liu, Jun He
cs.AI
Resumen
Con el auge de las plataformas en línea de videos de baile y los rápidos avances en contenido generado por IA (AIGC), la generación de danza impulsada por música ha surgido como una línea de investigación atractiva. A pesar de los avances significativos en dominios relacionados, como la generación de danza 3D basada en música, la animación de imágenes impulsada por poses y la síntesis de cabezas parlantes guiadas por audio, los métodos existentes no pueden adaptarse directamente a esta tarea. Además, los estudios limitados en esta área aún tienen dificultades para lograr conjuntamente una apariencia visual de alta calidad y un movimiento humano realista. En consecuencia, presentamos MACE-Dance, un marco de generación de videos de baile impulsado por música con una cascada de Mixture-of-Experts (MoE). El Motion Expert realiza la generación de movimiento 3D a partir de música, garantizando plausibilidad cinemática y expresividad artística, mientras que el Appearance Expert lleva a cabo la síntesis de video condicionada por movimiento y referencia, preservando la identidad visual con coherencia espacio-temporal. Específicamente, el Motion Expert adopta un modelo de difusión con una arquitectura híbrida BiMamba-Transformer y una estrategia de Guidance-Free Training (GFT), logrando un rendimiento de vanguardia (SOTA) en generación de danza 3D. El Appearance Expert emplea una estrategia de ajuste fino cinemático-estético desacoplado, alcanzando un rendimiento de vanguardia (SOTA) en animación de imágenes basada en poses. Para evaluar mejor esta tarea, hemos recopilado un conjunto de datos diverso y a gran escala y diseñado un protocolo de evaluación de movimiento-apariencia. Según este protocolo, MACE-Dance también logra un rendimiento de vanguardia. El código está disponible en https://github.com/AMAP-ML/MACE-Dance.
English
With the rise of online dance-video platforms and rapid advances in AI-generated content (AIGC), music-driven dance generation has emerged as a compelling research direction. Despite substantial progress in related domains such as music-driven 3D dance generation, pose-driven image animation, and audio-driven talking-head synthesis, existing methods cannot be directly adapted to this task. Moreover, the limited studies in this area still struggle to jointly achieve high-quality visual appearance and realistic human motion. Accordingly, we present MACE-Dance, a music-driven dance video generation framework with cascaded Mixture-of-Experts (MoE). The Motion Expert performs music-to-3D motion generation while enforcing kinematic plausibility and artistic expressiveness, whereas the Appearance Expert carries out motion- and reference-conditioned video synthesis, preserving visual identity with spatiotemporal coherence. Specifically, the Motion Expert adopts a diffusion model with a BiMamba-Transformer hybrid architecture and a Guidance-Free Training (GFT) strategy, achieving state-of-the-art (SOTA) performance in 3D dance generation. The Appearance Expert employs a decoupled kinematic-aesthetic fine-tuning strategy, achieving state-of-the-art (SOTA) performance in pose-driven image animation. To better benchmark this task, we curate a large-scale and diverse dataset and design a motion-appearance evaluation protocol. Based on this protocol, MACE-Dance also achieves state-of-the-art performance. Code is available at https://github.com/AMAP-ML/MACE-Dance.