ChatPaper.aiChatPaper

UniMoE-Audio: Унифицированная генерация речи и музыки с использованием динамической емкости MoE

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

October 15, 2025
Авторы: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI

Аннотация

Последние достижения в области унифицированных мультимодальных моделей указывают на явную тенденцию к созданию комплексных систем генерации контента. Однако аудиодомен остается значительным вызовом, поскольку музыка и речь часто разрабатываются изолированно, что препятствует прогрессу в направлении универсального синтеза аудио. Это разделение обусловлено внутренними конфликтами задач и серьезным дисбалансом данных, что затрудняет разработку действительно унифицированной модели генерации аудио. Для решения этой проблемы мы предлагаем UniMoE-Audio — унифицированную модель генерации речи и музыки в рамках новой архитектуры Dynamic-Capacity Mixture-of-Experts (MoE). Архитектурно UniMoE-Audio представляет стратегию маршрутизации Top-P для динамического распределения числа экспертов, а также гибридный дизайн экспертов, включающий маршрутизируемых экспертов для доменно-специфических знаний, общих экспертов для доменно-независимых признаков и нулевых экспертов для адаптивного пропуска вычислений. Для устранения дисбаланса данных мы предлагаем трехэтапную учебную программу: 1) Независимое обучение специалистов использует исходные наборы данных для внедрения доменно-специфических знаний в каждого "прото-эксперта" без помех; 2) Интеграция MoE и разогрев включает этих специалистов в архитектуру UniMoE-Audio, разогревая модуль шлюза и общего эксперта с использованием сбалансированного подмножества данных; и 3) Синергетическое совместное обучение обучает всю модель end-to-end на полностью сбалансированном наборе данных, способствуя усилению кросс-доменной синергии. Многочисленные эксперименты показывают, что UniMoE-Audio не только достигает наилучших результатов на основных бенчмарках генерации речи и музыки, но и демонстрирует превосходное синергетическое обучение, смягчая снижение производительности, обычно наблюдаемое при наивном совместном обучении. Наши результаты подчеркивают значительный потенциал специализированной архитектуры MoE и тщательно разработанных стратегий обучения в продвижении области универсальной генерации аудио. Домашняя страница: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards comprehensive content generation. However, the auditory domain remains a significant challenge, with music and speech often developed in isolation, hindering progress towards universal audio synthesis. This separation stems from inherent task conflicts and severe data imbalances, which impede the development of a truly unified audio generation model. To address this challenge, we propose UniMoE-Audio, a unified speech and music generation model within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework. Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic expert number allocation, and a hybrid expert design comprising routed experts for domain-specific knowledge, shared experts for domain-agnostic features, and null experts for adaptive computation skipping. To tackle data imbalance, we introduce a three-stage training curriculum: 1) Independent Specialist Training leverages original datasets to instill domain-specific knowledge into each "proto-expert" without interference; 2) MoE Integration and Warmup incorporates these specialists into the UniMoE-Audio architecture, warming up the gate module and shared expert using a subset of balanced dataset; and 3) Synergistic Joint Training trains the entire model end-to-end on the fully balanced dataset, fostering enhanced cross-domain synergy. Extensive experiments show that UniMoE-Audio not only achieves state-of-the-art performance on major speech and music generation benchmarks, but also demonstrates superior synergistic learning, mitigating the performance degradation typically seen in naive joint training. Our findings highlight the substantial potential of specialized MoE architecture and curated training strategies in advancing the field of universal audio generation. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
PDF603October 16, 2025