UniMoE-Audio: 동적 용량 MoE를 활용한 통합 음성 및 음악 생성
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
October 15, 2025
저자: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI
초록
최근 통합 멀티모달 모델의 발전은 포괄적인 콘텐츠 생성으로의 명확한 추세를 보여주고 있습니다. 그러나 청각 영역은 여전히 큰 도전 과제로 남아 있으며, 음악과 음성이 종종 독립적으로 개발되어 보편적인 오디오 합성으로의 진전을 방해하고 있습니다. 이러한 분리는 본질적인 작업 간의 충돌과 심각한 데이터 불균형에서 비롯되며, 이는 진정한 통합 오디오 생성 모델의 개발을 저해합니다. 이러한 문제를 해결하기 위해, 우리는 새로운 동적 용량 전문가 혼합(Dynamic-Capacity Mixture-of-Experts, MoE) 프레임워크 내에서 통합 음성 및 음악 생성 모델인 UniMoE-Audio를 제안합니다. 아키텍처적으로, UniMoE-Audio는 동적 전문가 수 할당을 위한 Top-P 라우팅 전략과, 도메인 특화 지식을 위한 라우팅 전문가, 도메인 독립적 특성을 위한 공유 전문가, 그리고 적응형 계산 생략을 위한 널 전문가로 구성된 하이브리드 전문가 설계를 도입합니다. 데이터 불균형 문제를 해결하기 위해, 우리는 세 단계의 훈련 커리큘럼을 제안합니다: 1) 독립 전문가 훈련(Independent Specialist Training)은 원본 데이터셋을 활용하여 각 "프로토 전문가"에 도메인 특화 지식을 간섭 없이 주입합니다; 2) MoE 통합 및 워밍업(MoE Integration and Warmup)은 이러한 전문가들을 UniMoE-Audio 아키텍처에 통합하고, 균형 잡힌 데이터셋의 일부를 사용하여 게이트 모듈과 공유 전문가를 워밍업합니다; 3) 시너지스트 공동 훈련(Synergistic Joint Training)은 완전히 균형 잡힌 데이터셋에서 전체 모델을 종단 간 훈련하여 강화된 도메인 간 시너지를 촉진합니다. 광범위한 실험을 통해 UniMoE-Audio는 주요 음성 및 음악 생성 벤치마크에서 최첨단 성능을 달성할 뿐만 아니라, 일반적인 공동 훈련에서 흔히 관찰되는 성능 저하를 완화하는 우수한 시너지 학습을 보여줍니다. 우리의 연구 결과는 전문화된 MoE 아키텍처와 세심하게 설계된 훈련 전략이 보편적인 오디오 생성 분야를 발전시키는 데 있어 상당한 잠재력을 가지고 있음을 강조합니다. 홈페이지: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards
comprehensive content generation. However, the auditory domain remains a
significant challenge, with music and speech often developed in isolation,
hindering progress towards universal audio synthesis. This separation stems
from inherent task conflicts and severe data imbalances, which impede the
development of a truly unified audio generation model. To address this
challenge, we propose UniMoE-Audio, a unified speech and music generation model
within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework.
Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic
expert number allocation, and a hybrid expert design comprising routed experts
for domain-specific knowledge, shared experts for domain-agnostic features, and
null experts for adaptive computation skipping. To tackle data imbalance, we
introduce a three-stage training curriculum: 1) Independent Specialist Training
leverages original datasets to instill domain-specific knowledge into each
"proto-expert" without interference; 2) MoE Integration and Warmup incorporates
these specialists into the UniMoE-Audio architecture, warming up the gate
module and shared expert using a subset of balanced dataset; and 3) Synergistic
Joint Training trains the entire model end-to-end on the fully balanced
dataset, fostering enhanced cross-domain synergy. Extensive experiments show
that UniMoE-Audio not only achieves state-of-the-art performance on major
speech and music generation benchmarks, but also demonstrates superior
synergistic learning, mitigating the performance degradation typically seen in
naive joint training. Our findings highlight the substantial potential of
specialized MoE architecture and curated training strategies in advancing the
field of universal audio generation. Homepage:
https://mukioxun.github.io/Uni-MoE-site/home.html