Rapport Technique MOSS-TTS
MOSS-TTS Technical Report
March 18, 2026
Auteurs: Yitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
Résumé
Ce rapport technique présente MOSS-TTS, un modèle fondateur de génération de parole construit sur une méthode évolutive : tokens audio discrets, modélisation autorégressive et pré-entraînement à grande échelle. Basé sur MOSS-Audio-Tokenizer, un tokeniseur Transformer causal qui compresse l'audio 24 kHz à 12,5 ips avec un RVQ à débit variable et des représentations sémantico-acoustiques unifiées, nous publions deux générateurs complémentaires : MOSS-TTS, qui privilégie la simplicité structurelle, l'évolutivité et le déploiement orienté contexte long/contrôle, et MOSS-TTS-Local-Transformer, qui introduit un module autorégressif local par trame pour une efficacité de modélisation supérieure, une meilleure préservation du locuteur et un temps réduit jusqu'au premier audio. Dans des contextes multilingues et open-domain, MOSS-TTS prend en charge le clonage vocal zero-shot, le contrôle de durée au niveau token, le contrôle de prononciation au niveau phonème/pinyin, le changement de code fluide et la génération stable de longs formats. Ce rapport résume la conception, la méthode d'entraînement et les caractéristiques empiriques des modèles publiés.
English
This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.