UniMoE-Audio: Унифицированная генерация речи и музыки с использованием динамической емкости MoE
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
October 15, 2025
Авторы: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI
Аннотация
Последние достижения в области унифицированных мультимодальных моделей указывают на явную тенденцию к созданию комплексных систем генерации контента. Однако аудиодомен остается значительным вызовом, поскольку музыка и речь часто разрабатываются изолированно, что препятствует прогрессу в направлении универсального синтеза аудио. Это разделение обусловлено внутренними конфликтами задач и серьезным дисбалансом данных, что затрудняет разработку действительно унифицированной модели генерации аудио. Для решения этой проблемы мы предлагаем UniMoE-Audio — унифицированную модель генерации речи и музыки в рамках новой архитектуры Dynamic-Capacity Mixture-of-Experts (MoE). Архитектурно UniMoE-Audio представляет стратегию маршрутизации Top-P для динамического распределения числа экспертов, а также гибридный дизайн экспертов, включающий маршрутизируемых экспертов для доменно-специфических знаний, общих экспертов для доменно-независимых признаков и нулевых экспертов для адаптивного пропуска вычислений. Для устранения дисбаланса данных мы предлагаем трехэтапную учебную программу: 1) Независимое обучение специалистов использует исходные наборы данных для внедрения доменно-специфических знаний в каждого "прото-эксперта" без помех; 2) Интеграция MoE и разогрев включает этих специалистов в архитектуру UniMoE-Audio, разогревая модуль шлюза и общего эксперта с использованием сбалансированного подмножества данных; и 3) Синергетическое совместное обучение обучает всю модель end-to-end на полностью сбалансированном наборе данных, способствуя усилению кросс-доменной синергии. Многочисленные эксперименты показывают, что UniMoE-Audio не только достигает наилучших результатов на основных бенчмарках генерации речи и музыки, но и демонстрирует превосходное синергетическое обучение, смягчая снижение производительности, обычно наблюдаемое при наивном совместном обучении. Наши результаты подчеркивают значительный потенциал специализированной архитектуры MoE и тщательно разработанных стратегий обучения в продвижении области универсальной генерации аудио. Домашняя страница: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards
comprehensive content generation. However, the auditory domain remains a
significant challenge, with music and speech often developed in isolation,
hindering progress towards universal audio synthesis. This separation stems
from inherent task conflicts and severe data imbalances, which impede the
development of a truly unified audio generation model. To address this
challenge, we propose UniMoE-Audio, a unified speech and music generation model
within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework.
Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic
expert number allocation, and a hybrid expert design comprising routed experts
for domain-specific knowledge, shared experts for domain-agnostic features, and
null experts for adaptive computation skipping. To tackle data imbalance, we
introduce a three-stage training curriculum: 1) Independent Specialist Training
leverages original datasets to instill domain-specific knowledge into each
"proto-expert" without interference; 2) MoE Integration and Warmup incorporates
these specialists into the UniMoE-Audio architecture, warming up the gate
module and shared expert using a subset of balanced dataset; and 3) Synergistic
Joint Training trains the entire model end-to-end on the fully balanced
dataset, fostering enhanced cross-domain synergy. Extensive experiments show
that UniMoE-Audio not only achieves state-of-the-art performance on major
speech and music generation benchmarks, but also demonstrates superior
synergistic learning, mitigating the performance degradation typically seen in
naive joint training. Our findings highlight the substantial potential of
specialized MoE architecture and curated training strategies in advancing the
field of universal audio generation. Homepage:
https://mukioxun.github.io/Uni-MoE-site/home.html