ChatPaper.aiChatPaper

UniMoE-Audio: 動的容量MoEによる統合的音声・音楽生成

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

October 15, 2025
著者: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI

要旨

近年の統一マルチモーダルモデルの進展は、包括的なコンテンツ生成への明確な傾向を示している。しかし、聴覚領域は依然として大きな課題であり、音楽と音声がしばしば孤立して開発されるため、普遍的なオーディオ合成への進展が妨げられている。この分離は、本質的なタスク間の衝突と深刻なデータの不均衡に起因しており、真に統一されたオーディオ生成モデルの開発を阻んでいる。この課題に対処するため、我々は新たな動的容量混合専門家(MoE)フレームワーク内で統一された音声と音楽生成モデルであるUniMoE-Audioを提案する。アーキテクチャ上、UniMoE-Audioは、動的な専門家数割り当てのためのTop-Pルーティング戦略、ドメイン固有の知識を扱うルーティング専門家、ドメインに依存しない特徴を扱う共有専門家、および適応的な計算スキップを可能にするnull専門家からなるハイブリッド専門家設計を導入している。データの不均衡に対処するため、我々は三段階のトレーニングカリキュラムを導入する:1)独立した専門家トレーニングでは、元のデータセットを活用して各「プロト専門家」にドメイン固有の知識を干渉なく注入する;2)MoE統合とウォームアップでは、これらの専門家をUniMoE-Audioアーキテクチャに組み込み、バランスの取れたデータセットのサブセットを使用してゲートモジュールと共有専門家をウォームアップする;3)相乗的ジョイントトレーニングでは、完全にバランスの取れたデータセット上でモデル全体をエンドツーエンドでトレーニングし、クロスドメインの相乗効果を強化する。広範な実験により、UniMoE-Audioは主要な音声および音楽生成ベンチマークで最先端の性能を達成するだけでなく、ナイーブなジョイントトレーニングで通常見られる性能低下を軽減する優れた相乗学習を示すことが明らかになった。我々の研究結果は、専門化されたMoEアーキテクチャと精選されたトレーニング戦略が、普遍的なオーディオ生成の分野を前進させる上で大きな可能性を秘めていることを強調している。ホームページ:https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards comprehensive content generation. However, the auditory domain remains a significant challenge, with music and speech often developed in isolation, hindering progress towards universal audio synthesis. This separation stems from inherent task conflicts and severe data imbalances, which impede the development of a truly unified audio generation model. To address this challenge, we propose UniMoE-Audio, a unified speech and music generation model within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework. Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic expert number allocation, and a hybrid expert design comprising routed experts for domain-specific knowledge, shared experts for domain-agnostic features, and null experts for adaptive computation skipping. To tackle data imbalance, we introduce a three-stage training curriculum: 1) Independent Specialist Training leverages original datasets to instill domain-specific knowledge into each "proto-expert" without interference; 2) MoE Integration and Warmup incorporates these specialists into the UniMoE-Audio architecture, warming up the gate module and shared expert using a subset of balanced dataset; and 3) Synergistic Joint Training trains the entire model end-to-end on the fully balanced dataset, fostering enhanced cross-domain synergy. Extensive experiments show that UniMoE-Audio not only achieves state-of-the-art performance on major speech and music generation benchmarks, but also demonstrates superior synergistic learning, mitigating the performance degradation typically seen in naive joint training. Our findings highlight the substantial potential of specialized MoE architecture and curated training strategies in advancing the field of universal audio generation. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
PDF603October 16, 2025