Технический отчет MOSS-TTS

Аннотация

В данном техническом отчете представлена MOSS-TTS — фундаментальная модель генерации речи, построенная по масштабируемой схеме: дискретные аудиотокены, авторегрессионное моделирование и предобучение на больших данных. На основе MOSS-Audio-Tokenizer, каузального трансформерного токенизатора, который сжимает аудио 24 кГц до 12.5 кадров в секунду с использованием RVQ с переменной битрейтом и унифицированных семантико-акустических представлений, мы выпускаем две взаимодополняющие генеративные модели: MOSS-TTS, ориентированную на структурную простоту, масштабируемость и развертывание для длинных контекстов/управления, и MOSS-TTS-Local-Transformer, которая вводит фреймово-локальный авторегрессионный модуль для повышения эффективности моделирования, лучшего сохранения характеристик диктора и сокращения времени до первого сгенерированного аудио. В мультиязычных и открытых доменных сценариях MOSS-TTS поддерживает zero-shot клонирование голоса, поточное управление длительностями, управление произношением на уровне фонем/пиньиня, плавное переключение языков и стабильную генерацию длинных форм. В отчете обобщены архитектура, методика обучения и эмпирические характеристики выпущенных моделей.

English

This technical report presents MOSS-TTS, a speech generation foundation model built on a scalable recipe: discrete audio tokens, autoregressive modeling, and large-scale pretraining. Built on MOSS-Audio-Tokenizer, a causal Transformer tokenizer that compresses 24 kHz audio to 12.5 fps with variable-bitrate RVQ and unified semantic-acoustic representations, we release two complementary generators: MOSS-TTS, which emphasizes structural simplicity, scalability, and long-context/control-oriented deployment, and MOSS-TTS-Local-Transformer, which introduces a frame-local autoregressive module for higher modeling efficiency, stronger speaker preservation, and a shorter time to first audio. Across multilingual and open-domain settings, MOSS-TTS supports zero-shot voice cloning, token-level duration control, phoneme-/pinyin-level pronunciation control, smooth code-switching, and stable long-form generation. This report summarizes the design, training recipe, and empirical characteristics of the released models.

Технический отчет MOSS-TTS

MOSS-TTS Technical Report

Аннотация

Support