Rapport technique dots.tts

Résumé

Nous présentons dots.tts, un modèle fondamental de synthèse vocale (text-to-speech, TTS) autorégressif continu de 2 milliards de paramètres, qui modélise la parole dans un espace latent continu. Par rapport aux modèles autorégressifs continus existants, nos innovations principales sont au nombre de trois. Premièrement, nous entraînons un AudioVAE avec des objectifs multiples afin de construire un espace de parole continu, sémantiquement structuré et favorable à la prédiction. Deuxièmement, nous utilisons un conditionnement sur l'historique complet dans la tête de matching de flux (flow-matching) pour préserver la cohérence à longue portée et réduire la dérive lors de la génération. Troisièmement, nous appliquons un post-entraînement auto-correctif sans récompense à la tête de matching de flux afin d'améliorer davantage la robustesse et la qualité acoustique. Après avoir été entraîné sur un corpus multilingue à grande échelle, dots.tts atteint la meilleure performance moyenne sur Seed-TTS-Eval, avec des taux d'erreur de mots (WER) de 0,94 % / 1,30 % / 6,60 % et des scores de similarité (SIM) de 81,0 / 77,1 / 79,5 sur les ensembles de test zh/en/zh-hard respectivement. Sur d'autres bancs d'essai, dots.tts démontre également de manière constante des performances de pointe en source ouverte, faisant preuve d'une forte stabilité de génération, d'une capacité de clonage vocal et d'une expressivité émotionnelle. Pour une inférence efficace, nous appliquons en outre une distillation MeanFlow tenant compte du CFG, permettant une génération vocale à faible latence avec des latences de premier paquet de 85/54 ms respectivement en modes de sortie en continu et de double flux. Afin de faciliter la recherche reproductible et le déploiement pratique, nous publions le code d'entraînement et d'inférence, ainsi que les points de contrôle pré-entraînés, post-entraînés et distillés par MeanFlow, sous la licence Apache 2.0.

English

We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.