ChatPaper.aiChatPaper

UniMoE-Audio: Generación Unificada de Voz y Música con MoE de Capacidad Dinámica

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

October 15, 2025
Autores: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
cs.AI

Resumen

Los avances recientes en modelos multimodales unificados indican una clara tendencia hacia la generación de contenido integral. Sin embargo, el dominio auditivo sigue siendo un desafío significativo, ya que la música y el habla a menudo se desarrollan de manera aislada, lo que obstaculiza el progreso hacia la síntesis de audio universal. Esta separación se debe a conflictos inherentes en las tareas y a graves desequilibrios en los datos, lo que impide el desarrollo de un modelo de generación de audio verdaderamente unificado. Para abordar este desafío, proponemos UniMoE-Audio, un modelo unificado de generación de habla y música dentro de un novedoso marco de Mezcla de Expertos de Capacidad Dinámica (MoE, por sus siglas en inglés). Arquitectónicamente, UniMoE-Audio introduce una estrategia de enrutamiento Top-P para la asignación dinámica del número de expertos, y un diseño híbrido de expertos que incluye expertos enrutados para conocimientos específicos del dominio, expertos compartidos para características agnósticas del dominio y expertos nulos para la omisión adaptativa de cálculos. Para abordar el desequilibrio de datos, introducimos un plan de entrenamiento en tres etapas: 1) Entrenamiento Independiente de Especialistas aprovecha los conjuntos de datos originales para inculcar conocimientos específicos del dominio en cada "proto-experto" sin interferencias; 2) Integración y Calentamiento de MoE incorpora estos especialistas en la arquitectura de UniMoE-Audio, calentando el módulo de puerta y el experto compartido utilizando un subconjunto de datos equilibrados; y 3) Entrenamiento Conjunto Sinérgico entrena todo el modelo de extremo a extremo en el conjunto de datos completamente equilibrado, fomentando una sinergia mejorada entre dominios. Experimentos extensos muestran que UniMoE-Audio no solo alcanza un rendimiento de vanguardia en los principales puntos de referencia de generación de habla y música, sino que también demuestra un aprendizaje sinérgico superior, mitigando la degradación del rendimiento típicamente observada en el entrenamiento conjunto ingenuo. Nuestros hallazgos destacan el potencial sustancial de la arquitectura MoE especializada y las estrategias de entrenamiento curadas para avanzar en el campo de la generación de audio universal. Página principal: https://mukioxun.github.io/Uni-MoE-site/home.html
English
Recent advances in unified multimodal models indicate a clear trend towards comprehensive content generation. However, the auditory domain remains a significant challenge, with music and speech often developed in isolation, hindering progress towards universal audio synthesis. This separation stems from inherent task conflicts and severe data imbalances, which impede the development of a truly unified audio generation model. To address this challenge, we propose UniMoE-Audio, a unified speech and music generation model within a novel Dynamic-Capacity Mixture-of-Experts (MoE) framework. Architecturally, UniMoE-Audio introduces a Top-P routing strategy for dynamic expert number allocation, and a hybrid expert design comprising routed experts for domain-specific knowledge, shared experts for domain-agnostic features, and null experts for adaptive computation skipping. To tackle data imbalance, we introduce a three-stage training curriculum: 1) Independent Specialist Training leverages original datasets to instill domain-specific knowledge into each "proto-expert" without interference; 2) MoE Integration and Warmup incorporates these specialists into the UniMoE-Audio architecture, warming up the gate module and shared expert using a subset of balanced dataset; and 3) Synergistic Joint Training trains the entire model end-to-end on the fully balanced dataset, fostering enhanced cross-domain synergy. Extensive experiments show that UniMoE-Audio not only achieves state-of-the-art performance on major speech and music generation benchmarks, but also demonstrates superior synergistic learning, mitigating the performance degradation typically seen in naive joint training. Our findings highlight the substantial potential of specialized MoE architecture and curated training strategies in advancing the field of universal audio generation. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
PDF603October 16, 2025