ChatPaper.aiChatPaper

Rapporto Tecnico di MOSS-TTS

MOSS-TTS Technical Report

March 18, 2026
Autori: Yitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

Abstract

Questo rapporto tecnico presenta MOSS-TTS, un modello fondante per la generazione vocale basato su una ricetta scalabile: token audio discreti, modellazione autoregressiva e pre-addestramento su larga scala. Basato su MOSS-Audio-Tokenizer, un tokenizzatore Transformer causale che comprime audio a 24 kHz a 12.5 fps utilizzando RVQ a bitrate variabile e rappresentazioni semantiche-acustiche unificate, rilasciamo due generatori complementari: MOSS-TTS, che enfatizza la semplicità strutturale, la scalabilità e un deployment orientato al contesto lungo/controllo, e MOSS-TTS-Local-Transformer, che introduce un modulo autoregressivo locale al frame per una maggiore efficienza di modellazione, una migliore preservazione del parlante e un tempo minore per il primo audio. In contesti multilingue e open-domain, MOSS-TTS supporta il voice cloning zero-shot, il controllo della durata a livello di token, il controllo della pronuncia a livello di fonema/pinyin, code-switching fluido e una generazione long-form stabile. Questo rapporto riassume il design, la ricetta di addestramento e le caratteristiche empiriche dei modelli rilasciati.
English
This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.
PDF112April 3, 2026