Informe Técnico de MOSS-TTS

Resumen

Este informe técnico presenta MOSS-TTS, un modelo fundacional de generación de voz construido sobre una receta escalable: tokens de audio discretos, modelado autoregresivo y preentrenamiento a gran escala. Basado en MOSS-Audio-Tokenizer, un tokenizador Transformer causal que comprime audio de 24 kHz a 12.5 fps con RVQ de tasa de bits variable y representaciones unificadas semántico-acústicas, publicamos dos generadores complementarios: MOSS-TTS, que enfatiza la simplicidad estructural, la escalabilidad y el despliegue orientado a contexto largo/control, y MOSS-TTS-Local-Transformer, que introduce un módulo autoregresivo local por frame para una mayor eficiencia de modelado, una mejor preservación del hablante y un menor tiempo para el primer audio. En entornos multilingües y de dominio abierto, MOSS-TTS admite la clonación de voz zero-shot, el control de duración a nivel de token, el control de pronunciación a nivel de fonema/pinyin, el cambio de código fluido y la generación estable de formato largo. Este informe resume el diseño, la receta de entrenamiento y las características empíricas de los modelos publicados.

English

This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.

Informe Técnico de MOSS-TTS

MOSS-TTS Technical Report

Resumen

Support