ChatPaper.aiChatPaper

dots.tts 技術報告書

dots.tts Technical Report

June 5, 2026
著者: Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu
cs.AI

要旨

我々は、連続潜在空間における音声をモデル化する、20億パラメータの連続自己回帰型テキスト音声合成(TTS)基盤モデル「dots.tts」を提案する。既存の連続自己回帰モデルと比較して、我々の主要な革新は3点である。第一に、意味的に構造化され予測に適した連続音声空間を構築するため、複数の目的関数を持つAudioVAEを学習する。第二に、フローマッチングヘッドにおいて全履歴条件付けを用いることで、長距離の一貫性を維持し、生成時のドリフトを低減する。第三に、フローマッチングヘッドに対して報酬なし自己修正型ポストトレーニングを適用し、ロバスト性と音響品質をさらに向上させる。大規模多言語コーパスで学習されたdots.ttsは、Seed-TTS-Evalにおいて最高の平均性能を達成し、zh/en/zh-hardテストセットでそれぞれ0.94%/1.30%/6.60%のWERと81.0/77.1/79.5のSIMスコアを示す。他のベンチマークにおいても、dots.ttsは一貫してオープンソースの最先端性能を示し、強力な生成安定性、声質クローニング能力、感情表現力を発揮する。さらに効率的な推論のために、CFG対応MeanFlow蒸留を適用し、アウトプットストリーミングモードとデュアルストリーミングモードにおいてそれぞれ85ミリ秒および54ミリ秒の初回パケット遅延で低遅延音声生成を実現する。再現可能な研究と実用的な展開を促進するため、トレーニングコードと推論コード、ならびに事前学習済み、ポストトレーニング済み、MeanFlow蒸留済みのチェックポイントをApache 2.0ライセンスの下で公開する。
English
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.