Rapporto Tecnico di MOSS-TTS

Abstract

Questo rapporto tecnico presenta MOSS-TTS, un modello fondante per la generazione vocale basato su una ricetta scalabile: token audio discreti, modellazione autoregressiva e pre-addestramento su larga scala. Basato su MOSS-Audio-Tokenizer, un tokenizzatore Transformer causale che comprime audio a 24 kHz a 12.5 fps utilizzando RVQ a bitrate variabile e rappresentazioni semantiche-acustiche unificate, rilasciamo due generatori complementari: MOSS-TTS, che enfatizza la semplicità strutturale, la scalabilità e un deployment orientato al contesto lungo/controllo, e MOSS-TTS-Local-Transformer, che introduce un modulo autoregressivo locale al frame per una maggiore efficienza di modellazione, una migliore preservazione del parlante e un tempo minore per il primo audio. In contesti multilingue e open-domain, MOSS-TTS supporta il voice cloning zero-shot, il controllo della durata a livello di token, il controllo della pronuncia a livello di fonema/pinyin, code-switching fluido e una generazione long-form stabile. Questo rapporto riassume il design, la ricetta di addestramento e le caratteristiche empiriche dei modelli rilasciati.

English

This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.

Rapporto Tecnico di MOSS-TTS

MOSS-TTS Technical Report

Abstract

Support