ChatPaper.aiChatPaper

UniMoE-Audio: Generazione Unificata di Voce e Musica con Capacità Dinamica MoE

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

October 15, 2025
Autori: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI

Abstract

I recenti progressi nei modelli multimodali unificati indicano una chiara tendenza verso la generazione di contenuti completi. Tuttavia, il dominio uditivo rimane una sfida significativa, con musica e voce spesso sviluppate in isolamento, ostacolando il progresso verso una sintesi audio universale. Questa separazione deriva da conflitti intrinseci tra i compiti e da gravi squilibri nei dati, che impediscono lo sviluppo di un modello di generazione audio veramente unificato. Per affrontare questa sfida, proponiamo UniMoE-Audio, un modello unificato per la generazione di voce e musica all'interno di un nuovo framework Dynamic-Capacity Mixture-of-Experts (MoE). Architettonicamente, UniMoE-Audio introduce una strategia di routing Top-P per l'allocazione dinamica del numero di esperti e un design ibrido di esperti che comprende esperti instradati per conoscenze specifiche del dominio, esperti condivisi per caratteristiche indipendenti dal dominio ed esperti nulli per il salto adattivo del calcolo. Per affrontare lo squilibrio dei dati, introduciamo un curriculum di addestramento in tre fasi: 1) l'Addestramento Indipendente degli Specialisti sfrutta i dataset originali per instillare conoscenze specifiche del dominio in ciascun "proto-esperto" senza interferenze; 2) l'Integrazione e il Riscaldamento MoE incorporano questi specialisti nell'architettura UniMoE-Audio, riscaldando il modulo di gate e l'esperto condiviso utilizzando un sottoinsieme bilanciato del dataset; e 3) l'Addestramento Congiunto Sinergico addestra l'intero modello end-to-end sul dataset completamente bilanciato, favorendo una sinergia cross-domain potenziata. Esperimenti estensivi dimostrano che UniMoE-Audio non solo raggiunge prestazioni all'avanguardia sui principali benchmark di generazione di voce e musica, ma mostra anche un apprendimento sinergico superiore, mitigando il degrado delle prestazioni tipicamente osservato in un addestramento congiunto ingenuo. Le nostre scoperte evidenziano il potenziale sostanziale dell'architettura MoE specializzata e delle strategie di addestramento curate nel far progredire il campo della generazione audio universale. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards comprehensive content generation. However, the auditory domain remains a significant challenge, with music and speech often developed in isolation, hindering progress towards universal audio synthesis. This separation stems from inherent task conflicts and severe data imbalances, which impede the development of a truly unified audio generation model. To address this challenge, we propose UniMoE-Audio, a unified speech and music generation model within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework. Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic expert number allocation, and a hybrid expert design comprising routed experts for domain-specific knowledge, shared experts for domain-agnostic features, and null experts for adaptive computation skipping. To tackle data imbalance, we introduce a three-stage training curriculum: 1) Independent Specialist Training leverages original datasets to instill domain-specific knowledge into each "proto-expert" without interference; 2) MoE Integration and Warmup incorporates these specialists into the UniMoE-Audio architecture, warming up the gate module and shared expert using a subset of balanced dataset; and 3) Synergistic Joint Training trains the entire model end-to-end on the fully balanced dataset, fostering enhanced cross-domain synergy. Extensive experiments show that UniMoE-Audio not only achieves state-of-the-art performance on major speech and music generation benchmarks, but also demonstrates superior synergistic learning, mitigating the performance degradation typically seen in naive joint training. Our findings highlight the substantial potential of specialized MoE architecture and curated training strategies in advancing the field of universal audio generation. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
PDF603October 16, 2025