dots.tts Relatório Técnico

Resumo

Apresentamos o dots.tts, um modelo fundamental de texto-para-fala (TTS) autorregressivo contínuo com 2B parâmetros que modela a fala em um espaço latente contínuo. Em comparação com modelos autorregressivos contínuos existentes, nossas principais inovações são três. Primeiro, treinamos um AudioVAE com múltiplos objetivos para construir um espaço de fala contínuo semanticamente estruturado e favorável à predição. Segundo, utilizamos condicionamento de histórico completo no cabeçote de flow-matching para preservar a consistência de longo alcance e reduzir o desvio durante a geração. Terceiro, aplicamos pós-treinamento autocorretivo livre de recompensa ao cabeçote de flow-matching para melhorar ainda mais a robustez e a qualidade acústica. Após ser treinado em um corpus multilíngue de grande escala, o dots.tts alcança o melhor desempenho médio no Seed-TTS-Eval, com WERs de 0,94%/1,30%/6,60% e pontuações SIM de 81,0/77,1/79,5 nos conjuntos de teste zh/en/zh-hard, respectivamente. Em outros benchmarks, o dots.tts também demonstra consistentemente desempenho de estado da arte em código aberto, exibindo forte estabilidade de geração, capacidade de clonagem de voz e expressividade emocional. Para inferência eficiente, aplicamos ainda a destilação MeanFlow consciente de CFG, permitindo geração de fala de baixa latência com latências de primeiro pacote de 85/54 ms nos modos de streaming de saída e streaming duplo, respectivamente. Para facilitar a pesquisa reproduzível e a implantação prática, disponibilizamos o código de treinamento e inferência, juntamente com os checkpoints pré-treinados, pós-treinados e destilados por MeanFlow, sob a licença Apache 2.0.

English

We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.