UniMoE-Audio : Génération unifiée de parole et de musique avec une capacité dynamique de MoE
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
October 15, 2025
papers.authors: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI
papers.abstract
Les récentes avancées dans les modèles multimodaux unifiés indiquent une tendance claire vers la génération de contenu complet. Cependant, le domaine auditif reste un défi majeur, avec la musique et la parole souvent développées de manière isolée, ce qui freine les progrès vers une synthèse audio universelle. Cette séparation découle de conflits inhérents aux tâches et de déséquilibres sévères dans les données, qui entravent le développement d'un véritable modèle unifié de génération audio. Pour relever ce défi, nous proposons UniMoE-Audio, un modèle unifié de génération de parole et de musique dans un cadre novateur de Dynamic-Capacity Mixture-of-Experts (MoE). Sur le plan architectural, UniMoE-Audio introduit une stratégie de routage Top-P pour l'allocation dynamique du nombre d'experts, ainsi qu'une conception hybride d'experts comprenant des experts routés pour les connaissances spécifiques à un domaine, des experts partagés pour les caractéristiques indépendantes du domaine, et des experts nuls pour le saut adaptatif de calcul. Pour résoudre le problème de déséquilibre des données, nous proposons un curriculum d'entraînement en trois étapes : 1) L'entraînement indépendant des spécialistes exploite les jeux de données originaux pour inculquer des connaissances spécifiques à chaque "proto-expert" sans interférence ; 2) L'intégration et le préchauffage MoE incorporent ces spécialistes dans l'architecture UniMoE-Audio, en préchauffant le module de porte et l'expert partagé à l'aide d'un sous-ensemble de données équilibrées ; et 3) L'entraînement conjoint synergétique forme l'ensemble du modèle de bout en bout sur le jeu de données entièrement équilibré, favorisant une synergie inter-domaines améliorée. Des expériences approfondies montrent qu'UniMoE-Audio non seulement atteint des performances de pointe sur les principaux benchmarks de génération de parole et de musique, mais démontre également un apprentissage synergétique supérieur, atténuant la dégradation des performances typiquement observée dans un entraînement conjoint naïf. Nos résultats mettent en évidence le potentiel considérable de l'architecture MoE spécialisée et des stratégies d'entraînement soigneusement conçues pour faire progresser le domaine de la génération audio universelle. Page d'accueil : https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards
comprehensive content generation. However, the auditory domain remains a
significant challenge, with music and speech often developed in isolation,
hindering progress towards universal audio synthesis. This separation stems
from inherent task conflicts and severe data imbalances, which impede the
development of a truly unified audio generation model. To address this
challenge, we propose UniMoE-Audio, a unified speech and music generation model
within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework.
Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic
expert number allocation, and a hybrid expert design comprising routed experts
for domain-specific knowledge, shared experts for domain-agnostic features, and
null experts for adaptive computation skipping. To tackle data imbalance, we
introduce a three-stage training curriculum: 1) Independent Specialist Training
leverages original datasets to instill domain-specific knowledge into each
"proto-expert" without interference; 2) MoE Integration and Warmup incorporates
these specialists into the UniMoE-Audio architecture, warming up the gate
module and shared expert using a subset of balanced dataset; and 3) Synergistic
Joint Training trains the entire model end-to-end on the fully balanced
dataset, fostering enhanced cross-domain synergy. Extensive experiments show
that UniMoE-Audio not only achieves state-of-the-art performance on major
speech and music generation benchmarks, but also demonstrates superior
synergistic learning, mitigating the performance degradation typically seen in
naive joint training. Our findings highlight the substantial potential of
specialized MoE architecture and curated training strategies in advancing the
field of universal audio generation. Homepage:
https://mukioxun.github.io/Uni-MoE-site/home.html