dots.tts Technischer Bericht

Zusammenfassung

Wir präsentieren dots.tts, ein kontinuierliches autoregressives Text-to-Speech (TTS) Grundmodell mit 2 Milliarden Parametern, das Sprache in einem kontinuierlichen latenten Raum modelliert. Im Vergleich zu bestehenden kontinuierlichen autoregressiven Modellen liegen unsere wesentlichen Neuerungen in drei Bereichen. Erstens trainieren wir einen AudioVAE mit mehreren Zielen, um einen semantisch strukturierten und prädiktionsfreundlichen kontinuierlichen Sprachraum aufzubauen. Zweitens verwenden wir im Flow-Matching-Head eine Konditionierung auf die gesamte Historie, um langfristige Konsistenz zu bewahren und Drift während der Generierung zu reduzieren. Drittens wenden wir ein belohnungsfreies selbstkorrigierendes Nachtraining auf den Flow-Matching-Head an, um die Robustheit und akustische Qualität weiter zu verbessern. Nach dem Training auf einem groß angelegten mehrsprachigen Korpus erzielt dots.tts die beste durchschnittliche Leistung auf Seed-TTS-Eval, mit Wortfehlerraten (WERs) von 0,94 % / 1,30 % / 6,60 % und SIM-Werten von 81,0 / 77,1 / 79,5 auf den Testmengen zh / en / zh-hard. Auch auf anderen Benchmarks zeigt dots.tts durchgängig Open-Source-Spitzenleistung mit starker Generierungsstabilität, Stimmklonfähigkeit und emotionaler Ausdruckskraft. Für eine effiziente Inferenz wenden wir zusätzlich CFG-bewusste MeanFlow-Destillation an, die eine latenzarme Sprachgenerierung mit Latenzen des ersten Pakets von 85 ms bzw. 54 ms im Ausgabe-Streaming-Modus und im Dual-Streaming-Modus ermöglicht. Um reproduzierbare Forschung und praktische Bereitstellung zu fördern, veröffentlichen wir den Trainings- und Inferenzcode zusammen mit den vortrainierten, nachtrainierten und MeanFlow-destillierten Prüfpunkten unter der Apache-2.0-Lizenz.

English

We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.