ChatPaper.aiChatPaper

MOSS-TTS Technischer Bericht

MOSS-TTS Technical Report

March 18, 2026
Autoren: Yitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

Zusammenfassung

Dieser technische Bericht stellt MOSS-TTS vor, ein Sprachgenerierungs-Foundation-Modell, das auf einem skalierbaren Ansatz basiert: diskrete Audio-Token, autoregressive Modellierung und Training mit großen Datenmengen. Aufbauend auf MOSS-Audio-Tokenizer, einem kausalen Transformer-Tokenizer, der 24-kHz-Audio mit variabler Bitrate (RVQ) und vereinheitlichten semantisch-akustischen Repräsentationen auf 12,5 Bilder pro Sekunde komprimiert, veröffentlichen wir zwei komplementäre Generatoren: MOSS-TTS, das strukturelle Einfachheit, Skalierbarkeit und den Einsatz für lange Kontexte bzw. Steuerungsaufgaben betont, und MOSS-TTS-Local-Transformer, das ein frame-lokales autoregressives Modul für höhere Modellierungseffizienz, bessere Sprechererhaltung und kürzere Verzögerung bis zur ersten Audioausgabe einführt. In multilingualen und offenen Domänen unterstützt MOSS-TTS Zero-Shot-Stimmklonierung, Token-gesteuerte Dauer-Kontrolle, Phonem-/Pinyin-gesteuerte Aussprachekontrolle, fließenden Code-Switching und stabile Langform-Generierung. Dieser Bericht fasst das Design, das Trainingsverfahren und die empirischen Eigenschaften der veröffentlichten Modelle zusammen.
English
This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.
PDF61March 21, 2026