Технический отчет dots.tts

Аннотация

Мы представляем dots.tts — фундаментальную модель преобразования текста в речь (TTS) с непрерывным авторегрессионным моделированием, содержащую 2 миллиарда параметров и работающую в непрерывном латентном пространстве. По сравнению с существующими непрерывными авторегрессионными моделями наши ключевые нововведения тройственны. Во-первых, мы обучили AudioVAE с несколькими целевыми функциями для построения семантически структурированного и удобного для предсказания непрерывного речевого пространства. Во-вторых, мы используем кондиционирование полной истории в блоке согласования потоков (flow-matching head) для сохранения долгосрочной согласованности и уменьшения дрейфа во время генерации. В-третьих, мы применяем этап посттренировки самокоррекции без вознаграждения (reward-free self-corrective post-training) к блоку согласования потоков для дальнейшего улучшения устойчивости и акустического качества. После обучения на крупномасштабном многоязычном корпусе dots.tts достигает наилучшей средней производительности на бенчмарке Seed-TTS-Eval с показателями WER 0,94%/1,30%/6,60% и оценками SIM 81,0/77,1/79,5 на тестовых наборах zh/en/zh-hard соответственно. На других бенчмарках dots.tts также последовательно демонстрирует передовые результаты среди моделей с открытым исходным кодом, проявляя высокую стабильность генерации, способность к клонированию голоса и эмоциональную выразительность. Для эффективного инференса мы дополнительно применили MeanFlow-дистилляцию с учётом CFG, что позволяет генерировать речь с низкой задержкой: 85/54 мс для первого пакета в режимах потокового вывода и двойного потокового вывода соответственно. Для обеспечения воспроизводимости исследований и практического развертывания мы публикуем код обучения и инференса вместе с предобученными, посттренированными и дистиллированными с помощью MeanFlow чекпойнтами под лицензией Apache 2.0.

English

We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.