Informe Técnico de MOSS-TTS
MOSS-TTS Technical Report
March 18, 2026
Autores: Yitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
Resumen
Este informe técnico presenta MOSS-TTS, un modelo fundacional de generación de voz construido sobre una receta escalable: tokens de audio discretos, modelado autoregresivo y preentrenamiento a gran escala. Basado en MOSS-Audio-Tokenizer, un tokenizador Transformer causal que comprime audio de 24 kHz a 12.5 fps con RVQ de tasa de bits variable y representaciones unificadas semántico-acústicas, publicamos dos generadores complementarios: MOSS-TTS, que enfatiza la simplicidad estructural, la escalabilidad y el despliegue orientado a contexto largo/control, y MOSS-TTS-Local-Transformer, que introduce un módulo autoregresivo local por frame para una mayor eficiencia de modelado, una mejor preservación del hablante y un menor tiempo para el primer audio. En entornos multilingües y de dominio abierto, MOSS-TTS admite la clonación de voz zero-shot, el control de duración a nivel de token, el control de pronunciación a nivel de fonema/pinyin, el cambio de código fluido y la generación estable de formato largo. Este informe resume el diseño, la receta de entrenamiento y las características empíricas de los modelos publicados.
English
This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.