dots.tts Informe Técnico

Resumen

Presentamos dots.tts, un modelo fundacional de síntesis de voz (TTS) autoregresivo continuo de 2 mil millones de parámetros que modela el habla en un espacio latente continuo. En comparación con los modelos autoregresivos continuos existentes, nuestras innovaciones clave son triples. Primero, entrenamos un AudioVAE con múltiples objetivos para construir un espacio de habla continuo semánticamente estructurado y propicio para la predicción. Segundo, utilizamos condicionamiento de historial completo en el cabezal de coincidencia de flujo (flow-matching head) para preservar la coherencia a largo plazo y reducir la deriva durante la generación. Tercero, aplicamos post-entrenamiento autocorrectivo sin recompensa al cabezal de coincidencia de flujo para mejorar aún más la robustez y la calidad acústica. Tras ser entrenado en un corpus multilingüe a gran escala, dots.tts logra el mejor rendimiento promedio en Seed-TTS-Eval, con tasas de error de palabra (WER) de 0.94%/1.30%/6.60% y puntuaciones SIM de 81.0/77.1/79.5 en los conjuntos de prueba zh/en/zh-hard, respectivamente. En otros puntos de referencia, dots.tts también demuestra consistentemente un rendimiento de vanguardia en código abierto, exhibiendo una fuerte estabilidad de generación, capacidad de clonación de voz y expresividad emocional. Para una inferencia eficiente, aplicamos además destilación MeanFlow con conciencia de CFG, permitiendo la generación de voz de baja latencia con latencias de primer paquete de 85/54 ms en modos de transmisión de salida y transmisión dual, respectivamente. Para facilitar la investigación reproducible y el despliegue práctico, publicamos el código de entrenamiento e inferencia, junto con los puntos de control preentrenados, post-entrenados y destilados con MeanFlow, bajo la licencia Apache 2.0.

English

We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.