UniMoE-Audio: Geïntegreerde Spraak- en Muziekgeneratie met Dynamische-Capaciteit MoE
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
October 15, 2025
Auteurs: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in geünificeerde multimodale modellen wijzen op een duidelijke trend richting uitgebreide inhoudsgeneratie. Het auditieve domein blijft echter een aanzienlijke uitdaging, waarbij muziek en spraak vaak in isolatie worden ontwikkeld, wat de vooruitgang naar universele audiosynthese belemmert. Deze scheiding komt voort uit inherente taakconflicten en ernstige data-onbalans, wat de ontwikkeling van een echt geünificeerd audiogeneratiemodel in de weg staat. Om deze uitdaging aan te pakken, stellen we UniMoE-Audio voor, een geünificeerd spraak- en muziekgeneratiemodel binnen een nieuw Dynamic-Capacity Mixture-of-Experts (MoE) raamwerk. Architectonisch introduceert UniMoE-Audio een Top-P routeringsstrategie voor dynamische toewijzing van het aantal experts, en een hybride expertontwerp bestaande uit gerouteerde experts voor domeinspecifieke kennis, gedeelde experts voor domein-onafhankelijke kenmerken, en null-experts voor adaptieve berekeningsoverslaan. Om data-onbalans aan te pakken, introduceren we een driedelige trainingscurriculum: 1) Onafhankelijke Specialistentraining maakt gebruik van originele datasets om domeinspecifieke kennis in elke "proto-expert" in te brengen zonder interferentie; 2) MoE-integratie en Opwarming neemt deze specialisten op in de UniMoE-Audio architectuur, waarbij de gate-module en de gedeelde expert worden opgewarmd met een subset van een gebalanceerde dataset; en 3) Synergetische Gezamenlijke Training traint het hele model end-to-end op de volledig gebalanceerde dataset, wat een verbeterde cross-domein synergie bevordert. Uitgebreide experimenten tonen aan dat UniMoE-Audio niet alleen state-of-the-art prestaties behaalt op belangrijke spraak- en muziekgeneratiebenchmarks, maar ook superieure synergetische leerresultaten laat zien, waardoor de prestatievermindering die typisch wordt gezien bij naïeve gezamenlijke training wordt gemitigeerd. Onze bevindingen benadrukken het aanzienlijke potentieel van gespecialiseerde MoE-architectuur en zorgvuldig samengestelde trainingsstrategieën in het bevorderen van het veld van universele audiogeneratie. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards
comprehensive content generation. However, the auditory domain remains a
significant challenge, with music and speech often developed in isolation,
hindering progress towards universal audio synthesis. This separation stems
from inherent task conflicts and severe data imbalances, which impede the
development of a truly unified audio generation model. To address this
challenge, we propose UniMoE-Audio, a unified speech and music generation model
within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework.
Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic
expert number allocation, and a hybrid expert design comprising routed experts
for domain-specific knowledge, shared experts for domain-agnostic features, and
null experts for adaptive computation skipping. To tackle data imbalance, we
introduce a three-stage training curriculum: 1) Independent Specialist Training
leverages original datasets to instill domain-specific knowledge into each
"proto-expert" without interference; 2) MoE Integration and Warmup incorporates
these specialists into the UniMoE-Audio architecture, warming up the gate
module and shared expert using a subset of balanced dataset; and 3) Synergistic
Joint Training trains the entire model end-to-end on the fully balanced
dataset, fostering enhanced cross-domain synergy. Extensive experiments show
that UniMoE-Audio not only achieves state-of-the-art performance on major
speech and music generation benchmarks, but also demonstrates superior
synergistic learning, mitigating the performance degradation typically seen in
naive joint training. Our findings highlight the substantial potential of
specialized MoE architecture and curated training strategies in advancing the
field of universal audio generation. Homepage:
https://mukioxun.github.io/Uni-MoE-site/home.html