ChatPaper.aiChatPaper

Relatório Técnico do MOSS-TTS

MOSS-TTS Technical Report

March 18, 2026
Autores: Yitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

Resumo

Este relatório técnico apresenta o MOSS-TTS, um modelo de base para geração de fala construído sobre uma receita escalável: tokens de áudio discretos, modelagem autoregressiva e pré-treinamento em larga escala. Baseado no MOSS-Audio-Tokenizer, um tokenizador Transformer causal que comprime áudio de 24 kHz para 12,5 fps com RVQ de taxa de bits variável e representações semântico-acústicas unificadas, lançamos dois geradores complementares: o MOSS-TTS, que enfatiza a simplicidade estrutural, escalabilidade e implantação orientada para contexto longo/controle, e o MOSS-TTS-Local-Transformer, que introduz um módulo autoregressivo local por quadro para maior eficiência de modelagem, melhor preservação do locutor e um tempo mais curto para o primeiro áudio. Em configurações multilíngues e de domínio aberto, o MOSS-TTS suporta clonagem de voz *zero-shot*, controle de duração a nível de *token*, controle de pronúncia a nível de fonema/pinyin, comutação de código suave e geração de longa duração estável. Este relatório resume o projeto, a receita de treinamento e as características empíricas dos modelos lançados.
English
This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.
PDF92March 23, 2026