MACE-Dance : Experts en Cascade Mouvement-Apparence pour la Génération de Vidéos de Danse Pilotée par la Musique

Résumé

Avec l'essor des plateformes de vidéos de danse en ligne et les progrès rapides des contenus générés par IA (AIGC), la génération de danses pilotée par la musique est devenue un axe de recherche prometteur. Malgré des avancées significatives dans des domaines connexes comme la génération de mouvements 3D synchronisés à la musique, l'animation d'images pilotée par des poses ou la synthèse de visages parlants guidée par l'audio, les méthodes existantes ne peuvent être directement adaptées à cette tâche. De plus, les rares études dans ce domaine peinent encore à concilier qualité visuelle et réalisme des mouvements humains. Nous proposons donc MACE-Dance, un cadre de génération de vidéos de danse piloté par la musique utilisant une architecture en cascade de type Mixture-of-Experts (MoE). L'expert en Mouvement génère des séquences 3D à partir de la musique tout en garantissant une plausibilité cinématique et une expressivité artistique, tandis que l'expert en Apparence synthétise des vidéos conditionnées par le mouvement et des références, préservant l'identité visuelle avec une cohérence spatio-temporelle. Plus précisément, l'expert en Mouvement utilise un modèle de diffusion doté d'une architecture hybride BiMamba-Transformer et une stratégie d'apprentissage sans guidage (GFT), atteignant des performances de pointe en génération de mouvements 3D. L'expert en Apparence emploie une stratégie de réglage fin découplée kinématique-esthétique, obtenant des résultats optimaux en animation d'images pilotée par des poses. Pour mieux évaluer cette tâche, nous avons constitué un jeu de données diversifié à grande échelle et conçu un protocole d'évaluation mouvement-apparence. Sur cette base, MACE-Dance atteint également des performances de référence. Le code est disponible à l'adresse https://github.com/AMAP-ML/MACE-Dance.

English

With the rise of online dance-video platforms and rapid advances in AI-generated content (AIGC), music-driven dance generation has emerged as a compelling research direction. Despite substantial progress in related domains such as music-driven 3D dance generation, pose-driven image animation, and audio-driven talking-head synthesis, existing methods cannot be directly adapted to this task. Moreover, the limited studies in this area still struggle to jointly achieve high-quality visual appearance and realistic human motion. Accordingly, we present MACE-Dance, a music-driven dance video generation framework with cascaded Mixture-of-Experts (MoE). The Motion Expert performs music-to-3D motion generation while enforcing kinematic plausibility and artistic expressiveness, whereas the Appearance Expert carries out motion- and reference-conditioned video synthesis, preserving visual identity with spatiotemporal coherence. Specifically, the Motion Expert adopts a diffusion model with a BiMamba-Transformer hybrid architecture and a Guidance-Free Training (GFT) strategy, achieving state-of-the-art (SOTA) performance in 3D dance generation. The Appearance Expert employs a decoupled kinematic-aesthetic fine-tuning strategy, achieving state-of-the-art (SOTA) performance in pose-driven image animation. To better benchmark this task, we curate a large-scale and diverse dataset and design a motion-appearance evaluation protocol. Based on this protocol, MACE-Dance also achieves state-of-the-art performance. Code is available at https://github.com/AMAP-ML/MACE-Dance.

MACE-Dance : Experts en Cascade Mouvement-Apparence pour la Génération de Vidéos de Danse Pilotée par la Musique

MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

Résumé

Support