UniMoE-Audio: Vereinheitlichte Sprach- und Musikerzeugung mit dynamischer Kapazitäts-MoE
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE
October 15, 2025
papers.authors: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI
papers.abstract
Jüngste Fortschritte in einheitlichen multimodalen Modellen deuten auf einen klaren Trend zur umfassenden Inhaltsgenerierung hin. Dennoch bleibt der auditive Bereich eine erhebliche Herausforderung, da Musik und Sprache oft isoliert entwickelt werden, was den Fortschritt in Richtung universeller Audiosynthese behindert. Diese Trennung resultiert aus inhärenten Aufgabenkonflikten und schwerwiegenden Datenungleichgewichten, die die Entwicklung eines wirklich einheitlichen Audio-Generierungsmodells erschweren. Um diese Herausforderung zu bewältigen, schlagen wir UniMoE-Audio vor, ein einheitliches Modell zur Generierung von Sprache und Musik innerhalb eines neuartigen Dynamic-Capacity Mixture-of-Experts (MoE)-Rahmens. Architektonisch führt UniMoE-Audio eine Top-P-Routing-Strategie für die dynamische Zuweisung von Expertenzahlen ein sowie ein hybrides Experten-Design, das geroutete Experten für domänenspezifisches Wissen, gemeinsame Experten für domänenübergreifende Merkmale und Null-Experten für adaptives Überspringen von Berechnungen umfasst. Um das Datenungleichgewicht zu bewältigen, führen wir ein dreistufiges Trainingscurriculum ein: 1) Unabhängiges Spezialistentraining nutzt die ursprünglichen Datensätze, um domänenspezifisches Wissen in jeden „Proto-Experten“ zu vermitteln, ohne dass es zu Interferenzen kommt; 2) MoE-Integration und -Aufwärmen integriert diese Spezialisten in die UniMoE-Audio-Architektur und wärmt das Gate-Modul und den gemeinsamen Experten mit einem Teil des ausgeglichenen Datensatzes auf; und 3) Synergetisches gemeinsames Training trainiert das gesamte Modell end-to-end auf dem vollständig ausgeglichenen Datensatz, wodurch eine verbesserte domänenübergreifende Synergie gefördert wird. Umfangreiche Experimente zeigen, dass UniMoE-Audio nicht nur state-of-the-art-Leistungen bei wichtigen Benchmarks zur Sprach- und Musikerzeugung erzielt, sondern auch ein überlegenes synergetisches Lernen demonstriert, das die Leistungsverschlechterung, die typischerweise bei naivem gemeinsamen Training auftritt, mildert. Unsere Ergebnisse unterstreichen das erhebliche Potenzial spezialisierter MoE-Architekturen und sorgfältig abgestimmter Trainingsstrategien für den Fortschritt im Bereich der universellen Audio-Generierung. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards
comprehensive content generation. However, the auditory domain remains a
significant challenge, with music and speech often developed in isolation,
hindering progress towards universal audio synthesis. This separation stems
from inherent task conflicts and severe data imbalances, which impede the
development of a truly unified audio generation model. To address this
challenge, we propose UniMoE-Audio, a unified speech and music generation model
within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework.
Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic
expert number allocation, and a hybrid expert design comprising routed experts
for domain-specific knowledge, shared experts for domain-agnostic features, and
null experts for adaptive computation skipping. To tackle data imbalance, we
introduce a three-stage training curriculum: 1) Independent Specialist Training
leverages original datasets to instill domain-specific knowledge into each
"proto-expert" without interference; 2) MoE Integration and Warmup incorporates
these specialists into the UniMoE-Audio architecture, warming up the gate
module and shared expert using a subset of balanced dataset; and 3) Synergistic
Joint Training trains the entire model end-to-end on the fully balanced
dataset, fostering enhanced cross-domain synergy. Extensive experiments show
that UniMoE-Audio not only achieves state-of-the-art performance on major
speech and music generation benchmarks, but also demonstrates superior
synergistic learning, mitigating the performance degradation typically seen in
naive joint training. Our findings highlight the substantial potential of
specialized MoE architecture and curated training strategies in advancing the
field of universal audio generation. Homepage:
https://mukioxun.github.io/Uni-MoE-site/home.html