UniMoE-Audio: Generazione Unificata di Voce e Musica con Capacità Dinamica MoE
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
October 15, 2025
Autori: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI
Abstract
I recenti progressi nei modelli multimodali unificati indicano una chiara tendenza verso la generazione di contenuti completi. Tuttavia, il dominio uditivo rimane una sfida significativa, con musica e voce spesso sviluppate in isolamento, ostacolando il progresso verso una sintesi audio universale. Questa separazione deriva da conflitti intrinseci tra i compiti e da gravi squilibri nei dati, che impediscono lo sviluppo di un modello di generazione audio veramente unificato. Per affrontare questa sfida, proponiamo UniMoE-Audio, un modello unificato per la generazione di voce e musica all'interno di un nuovo framework Dynamic-Capacity Mixture-of-Experts (MoE). Architettonicamente, UniMoE-Audio introduce una strategia di routing Top-P per l'allocazione dinamica del numero di esperti e un design ibrido di esperti che comprende esperti instradati per conoscenze specifiche del dominio, esperti condivisi per caratteristiche indipendenti dal dominio ed esperti nulli per il salto adattivo del calcolo. Per affrontare lo squilibrio dei dati, introduciamo un curriculum di addestramento in tre fasi: 1) l'Addestramento Indipendente degli Specialisti sfrutta i dataset originali per instillare conoscenze specifiche del dominio in ciascun "proto-esperto" senza interferenze; 2) l'Integrazione e il Riscaldamento MoE incorporano questi specialisti nell'architettura UniMoE-Audio, riscaldando il modulo di gate e l'esperto condiviso utilizzando un sottoinsieme bilanciato del dataset; e 3) l'Addestramento Congiunto Sinergico addestra l'intero modello end-to-end sul dataset completamente bilanciato, favorendo una sinergia cross-domain potenziata. Esperimenti estensivi dimostrano che UniMoE-Audio non solo raggiunge prestazioni all'avanguardia sui principali benchmark di generazione di voce e musica, ma mostra anche un apprendimento sinergico superiore, mitigando il degrado delle prestazioni tipicamente osservato in un addestramento congiunto ingenuo. Le nostre scoperte evidenziano il potenziale sostanziale dell'architettura MoE specializzata e delle strategie di addestramento curate nel far progredire il campo della generazione audio universale. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards
comprehensive content generation. However, the auditory domain remains a
significant challenge, with music and speech often developed in isolation,
hindering progress towards universal audio synthesis. This separation stems
from inherent task conflicts and severe data imbalances, which impede the
development of a truly unified audio generation model. To address this
challenge, we propose UniMoE-Audio, a unified speech and music generation model
within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework.
Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic
expert number allocation, and a hybrid expert design comprising routed experts
for domain-specific knowledge, shared experts for domain-agnostic features, and
null experts for adaptive computation skipping. To tackle data imbalance, we
introduce a three-stage training curriculum: 1) Independent Specialist Training
leverages original datasets to instill domain-specific knowledge into each
"proto-expert" without interference; 2) MoE Integration and Warmup incorporates
these specialists into the UniMoE-Audio architecture, warming up the gate
module and shared expert using a subset of balanced dataset; and 3) Synergistic
Joint Training trains the entire model end-to-end on the fully balanced
dataset, fostering enhanced cross-domain synergy. Extensive experiments show
that UniMoE-Audio not only achieves state-of-the-art performance on major
speech and music generation benchmarks, but also demonstrates superior
synergistic learning, mitigating the performance degradation typically seen in
naive joint training. Our findings highlight the substantial potential of
specialized MoE architecture and curated training strategies in advancing the
field of universal audio generation. Homepage:
https://mukioxun.github.io/Uni-MoE-site/home.html