ChatPaper.aiChatPaper

UniMoE-Audio: Geração Unificada de Fala e Música com MoE de Capacidade Dinâmica

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

October 15, 2025
Autores: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI

Resumo

Os avanços recentes em modelos multimodais unificados indicam uma tendência clara em direção à geração abrangente de conteúdo. No entanto, o domínio auditivo continua sendo um desafio significativo, com música e fala frequentemente desenvolvidas de forma isolada, dificultando o progresso em direção à síntese universal de áudio. Essa separação decorre de conflitos inerentes às tarefas e de graves desequilíbrios de dados, que impedem o desenvolvimento de um modelo verdadeiramente unificado de geração de áudio. Para enfrentar esse desafio, propomos o UniMoE-Audio, um modelo unificado de geração de fala e música dentro de uma nova estrutura de Mistura de Especialistas com Capacidade Dinâmica (MoE). Arquitetonicamente, o UniMoE-Audio introduz uma estratégia de roteamento Top-P para alocação dinâmica do número de especialistas e um design híbrido de especialistas que inclui especialistas roteados para conhecimento específico do domínio, especialistas compartilhados para características independentes do domínio e especialistas nulos para a omissão adaptativa de computação. Para lidar com o desequilíbrio de dados, introduzimos um currículo de treinamento em três estágios: 1) O Treinamento Independente de Especialistas aproveita os conjuntos de dados originais para incutir conhecimento específico do domínio em cada "proto-especialista" sem interferência; 2) A Integração e Aquecimento do MoE incorpora esses especialistas na arquitetura do UniMoE-Audio, aquecendo o módulo de gate e o especialista compartilhado usando um subconjunto de dados balanceados; e 3) O Treinamento Conjunto Sinérgico treina o modelo inteiro de ponta a ponta no conjunto de dados totalmente balanceado, promovendo uma sinergia aprimorada entre domínios. Experimentos extensivos mostram que o UniMoE-Audio não apenas alcança desempenho de ponta em benchmarks importantes de geração de fala e música, mas também demonstra aprendizado sinérgico superior, mitigando a degradação de desempenho tipicamente observada no treinamento conjunto ingênuo. Nossas descobertas destacam o potencial substancial da arquitetura MoE especializada e das estratégias de treinamento cuidadosamente elaboradas no avanço do campo da geração universal de áudio. Página inicial: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards comprehensive content generation. However, the auditory domain remains a significant challenge, with music and speech often developed in isolation, hindering progress towards universal audio synthesis. This separation stems from inherent task conflicts and severe data imbalances, which impede the development of a truly unified audio generation model. To address this challenge, we propose UniMoE-Audio, a unified speech and music generation model within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework. Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic expert number allocation, and a hybrid expert design comprising routed experts for domain-specific knowledge, shared experts for domain-agnostic features, and null experts for adaptive computation skipping. To tackle data imbalance, we introduce a three-stage training curriculum: 1) Independent Specialist Training leverages original datasets to instill domain-specific knowledge into each "proto-expert" without interference; 2) MoE Integration and Warmup incorporates these specialists into the UniMoE-Audio architecture, warming up the gate module and shared expert using a subset of balanced dataset; and 3) Synergistic Joint Training trains the entire model end-to-end on the fully balanced dataset, fostering enhanced cross-domain synergy. Extensive experiments show that UniMoE-Audio not only achieves state-of-the-art performance on major speech and music generation benchmarks, but also demonstrates superior synergistic learning, mitigating the performance degradation typically seen in naive joint training. Our findings highlight the substantial potential of specialized MoE architecture and curated training strategies in advancing the field of universal audio generation. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
PDF603October 16, 2025