Relatório Técnico do MOSS-TTS

Resumo

Este relatório técnico apresenta o MOSS-TTS, um modelo de base para geração de fala construído sobre uma receita escalável: tokens de áudio discretos, modelagem autoregressiva e pré-treinamento em larga escala. Baseado no MOSS-Audio-Tokenizer, um tokenizador Transformer causal que comprime áudio de 24 kHz para 12,5 fps com RVQ de taxa de bits variável e representações semântico-acústicas unificadas, lançamos dois geradores complementares: o MOSS-TTS, que enfatiza a simplicidade estrutural, escalabilidade e implantação orientada para contexto longo/controle, e o MOSS-TTS-Local-Transformer, que introduz um módulo autoregressivo local por quadro para maior eficiência de modelagem, melhor preservação do locutor e um tempo mais curto para o primeiro áudio. Em configurações multilíngues e de domínio aberto, o MOSS-TTS suporta clonagem de voz *zero-shot*, controle de duração a nível de *token*, controle de pronúncia a nível de fonema/pinyin, comutação de código suave e geração de longa duração estável. Este relatório resume o projeto, a receita de treinamento e as características empíricas dos modelos lançados.

English

This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.

Relatório Técnico do MOSS-TTS

MOSS-TTS Technical Report

Resumo

Support