MACE-Dance: Gecascadeerde Bewegings- en Uiterlijkexperts voor Muziekgestuurde Dansvideogeneratie
MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation
May 7, 2026
Auteurs: Kaixing Yang, Jiashu Zhu, Xulong Tang, Ziqiao Peng, Xiangyue Zhang, Puwei Wang, Jiahong Wu, Xiangxiang Chu, Hongyan Liu, Jun He
cs.AI
Samenvatting
Met de opkomst van online dansvideoplatforms en snelle vooruitgang in AI-gegenereerde inhoud (AIGC) is muziekgestuurde dansgeneratie een aantrekkelijke onderzoeksrichting geworden. Ondanks aanzienlijke vooruitgang in gerelateerde domeinen zoals muziekgestuurde 3D-dansgeneratie, posegestuurde beeldanimatie en audiogestuurde spraaksynthese, kunnen bestaande methoden niet direct worden aangepast aan deze taak. Bovendien worstelen de beperkte studies op dit gebied nog steeds om gezamenlijk een hoge visuele kwaliteit en realistische menselijke beweging te bereiken. Daarom presenteren wij MACE-Dance, een muziekgestuurd dansvideogeneratieraamwerk met een cascade van Mixture-of-Experts (MoE). De Motion Expert voert muziek-naar-3D-bewegingsgeneratie uit, terwijl kinematische plausibiliteit en artistieke expressiviteit worden afgedwongen, terwijl de Appearance Expert bewegings- en referentiegestuurde videosynthese uitvoert, met behoud van visuele identiteit met ruimtelijk-temporele coherentie. Specifiek maakt de Motion Expert gebruik van een diffusiemodel met een BiMamba-Transformer hybride architectuur en een Guidance-Free Training (GFT)-strategie, waarmee state-of-the-art (SOTA)-prestaties in 3D-dansgeneratie worden behaald. De Appearance Expert maakt gebruik van een ontkoppelde kinematisch-esthetische finetuningstrategie, waarmee state-of-the-art (SOTA)-prestaties in posegestuurde beeldanimatie worden behaald. Om deze taak beter te benchmarken, stellen wij een grootschalige en diverse dataset samen en ontwerpen wij een bewegings-uiterlijk evaluatieprotocol. Op basis van dit protocol behaalt MACE-Dance eveneens state-of-the-art prestaties. Code is beschikbaar op https://github.com/AMAP-ML/MACE-Dance.
English
With the rise of online dance-video platforms and rapid advances in AI-generated content (AIGC), music-driven dance generation has emerged as a compelling research direction. Despite substantial progress in related domains such as music-driven 3D dance generation, pose-driven image animation, and audio-driven talking-head synthesis, existing methods cannot be directly adapted to this task. Moreover, the limited studies in this area still struggle to jointly achieve high-quality visual appearance and realistic human motion. Accordingly, we present MACE-Dance, a music-driven dance video generation framework with cascaded Mixture-of-Experts (MoE). The Motion Expert performs music-to-3D motion generation while enforcing kinematic plausibility and artistic expressiveness, whereas the Appearance Expert carries out motion- and reference-conditioned video synthesis, preserving visual identity with spatiotemporal coherence. Specifically, the Motion Expert adopts a diffusion model with a BiMamba-Transformer hybrid architecture and a Guidance-Free Training (GFT) strategy, achieving state-of-the-art (SOTA) performance in 3D dance generation. The Appearance Expert employs a decoupled kinematic-aesthetic fine-tuning strategy, achieving state-of-the-art (SOTA) performance in pose-driven image animation. To better benchmark this task, we curate a large-scale and diverse dataset and design a motion-appearance evaluation protocol. Based on this protocol, MACE-Dance also achieves state-of-the-art performance. Code is available at https://github.com/AMAP-ML/MACE-Dance.