MACE-Dance: Bewegung-Erscheinungsbild-Kaskadenexperten für musikgesteuerte Tanzvideogenerierung

Zusammenfassung

Mit dem Aufkommen von Online-Tanzvideo-Plattformen und den rasanten Fortschritten bei KI-generierten Inhalten (AIGC) hat sich die musikgesteuerte Tanzgenerierung zu einem vielversprechenden Forschungsgebiet entwickelt. Trotz erheblicher Fortschritte in verwandten Bereichen wie der musikgesteuerten 3D-Tanzgenerierung, der posengesteuerten Bildanimation und der audiogesteuerten Talking-Head-Synthese können bestehende Methoden nicht direkt auf diese Aufgabe übertragen werden. Darüber hinaus gelingt es den bisherigen Studien in diesem Bereich noch nicht, hochwertige visuelle Darstellung und realistische menschliche Bewegungen gleichzeitig zu erreichen. Daher präsentieren wir MACE-Dance, ein musikgesteuertes Tanzvideo-Generierungsframework mit kaskadierter Mixture-of-Experts (MoE)-Architektur. Der Motion Expert übernimmt die musikgesteuerte 3D-Bewegungsgenerierung unter Berücksichtigung kinematischer Plausibilität und künstlerischer Ausdruckskraft, während der Appearance Expert eine bewegungs- und referenzgesteuerte Videosynthese durchführt, die visuelle Identität mit raumzeitlicher Kohärenz erhält. Konkret nutzt der Motion Expert ein Diffusionsmodell mit einer BiMamba-Transformer-Hybridarchitektur und einer Guidance-Free Training (GFT)-Strategie, wodurch state-of-the-art (SOTA)-Leistungen in der 3D-Tanzgenerierung erreicht werden. Der Appearance Expert setzt eine entkoppelte kinematisch-ästhetische Feinabstimmungsstrategie ein und erzielt damit SOTA-Leistungen in der posengesteuerten Bildanimation. Um diese Aufgabe besser bewerten zu können, haben wir einen umfangreichen und diversen Datensatz zusammengestellt und ein Bewertungsprotokoll für Bewegung und Darstellung entwickelt. Basierend auf diesem Protokoll erreicht MACE-Dance ebenfalls state-of-the-art-Leistungen. Der Code ist verfügbar unter https://github.com/AMAP-ML/MACE-Dance.

English

With the rise of online dance-video platforms and rapid advances in AI-generated content (AIGC), music-driven dance generation has emerged as a compelling research direction. Despite substantial progress in related domains such as music-driven 3D dance generation, pose-driven image animation, and audio-driven talking-head synthesis, existing methods cannot be directly adapted to this task. Moreover, the limited studies in this area still struggle to jointly achieve high-quality visual appearance and realistic human motion. Accordingly, we present MACE-Dance, a music-driven dance video generation framework with cascaded Mixture-of-Experts (MoE). The Motion Expert performs music-to-3D motion generation while enforcing kinematic plausibility and artistic expressiveness, whereas the Appearance Expert carries out motion- and reference-conditioned video synthesis, preserving visual identity with spatiotemporal coherence. Specifically, the Motion Expert adopts a diffusion model with a BiMamba-Transformer hybrid architecture and a Guidance-Free Training (GFT) strategy, achieving state-of-the-art (SOTA) performance in 3D dance generation. The Appearance Expert employs a decoupled kinematic-aesthetic fine-tuning strategy, achieving state-of-the-art (SOTA) performance in pose-driven image animation. To better benchmark this task, we curate a large-scale and diverse dataset and design a motion-appearance evaluation protocol. Based on this protocol, MACE-Dance also achieves state-of-the-art performance. Code is available at https://github.com/AMAP-ML/MACE-Dance.

MACE-Dance: Bewegung-Erscheinungsbild-Kaskadenexperten für musikgesteuerte Tanzvideogenerierung

MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

Zusammenfassung

Support