MOSS-TTS Technischer Bericht

Zusammenfassung

Dieser technische Bericht stellt MOSS-TTS vor, ein Sprachgenerierungs-Foundation-Modell, das auf einem skalierbaren Ansatz basiert: diskrete Audio-Token, autoregressive Modellierung und Training mit großen Datenmengen. Aufbauend auf MOSS-Audio-Tokenizer, einem kausalen Transformer-Tokenizer, der 24-kHz-Audio mit variabler Bitrate (RVQ) und vereinheitlichten semantisch-akustischen Repräsentationen auf 12,5 Bilder pro Sekunde komprimiert, veröffentlichen wir zwei komplementäre Generatoren: MOSS-TTS, das strukturelle Einfachheit, Skalierbarkeit und den Einsatz für lange Kontexte bzw. Steuerungsaufgaben betont, und MOSS-TTS-Local-Transformer, das ein frame-lokales autoregressives Modul für höhere Modellierungseffizienz, bessere Sprechererhaltung und kürzere Verzögerung bis zur ersten Audioausgabe einführt. In multilingualen und offenen Domänen unterstützt MOSS-TTS Zero-Shot-Stimmklonierung, Token-gesteuerte Dauer-Kontrolle, Phonem-/Pinyin-gesteuerte Aussprachekontrolle, fließenden Code-Switching und stabile Langform-Generierung. Dieser Bericht fasst das Design, das Trainingsverfahren und die empirischen Eigenschaften der veröffentlichten Modelle zusammen.

English

This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.

MOSS-TTS Technischer Bericht

MOSS-TTS Technical Report

Zusammenfassung

Support