dots.tts 기술 보고서
dots.tts Technical Report
June 5, 2026
저자: Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu
cs.AI
초록
본 논문에서는 연속 잠재 공간에서 음성을 모델링하는 20억 파라미터 연속 자기회귀 텍스트 음성 변환(TTS) 기반 모델인 dots.tts를 제시한다. 기존 연속 자기회귀 모델과 비교하여 본 연구의 주요 혁신은 세 가지이다. 첫째, 다중 목적 함수를 사용하여 AudioVAE를 학습시킴으로써 의미론적으로 구조화되고 예측에 유리한 연속 음성 공간을 구축한다. 둘째, 플로우 매칭 헤드에서 전체 이력 조건화를 사용하여 장기적인 일관성을 유지하고 생성 중 드리프트를 줄인다. 셋째, 플로우 매칭 헤드에 보상 없이 자기 교정 후퇴련을 적용하여 강건성과 음향 품질을 추가로 향상시킨다. 대규모 다국어 코퍼스로 학습된 dots.tts는 Seed-TTS-Eval에서 최고 평균 성능을 달성하며, 중국어/영어/중국어-하드 테스트 세트에서 각각 0.94%/1.30%/6.60%의 단어 오류율(WER)과 81.0/77.1/79.5의 화자 유사도(SIM) 점수를 기록한다. 다른 벤치마크에서도 dots.tts는 일관되게 오픈소스 최첨단 성능을 보여주며, 강력한 생성 안정성, 음성 복제 능력, 감정 표현력을 입증한다. 효율적인 추론을 위해 CFG 인지 MeanFlow 증류를 추가로 적용하여 출력 스트리밍 및 이중 스트리밍 모드에서 각각 85ms 및 54ms의 첫 패킷 지연 시간을 갖는 저지연 음성 생성을 가능하게 한다. 재현 가능한 연구와 실제 배포를 지원하기 위해 사전 학습, 후퇴련, MeanFlow 증류된 체크포인트와 함께 학습 및 추론 코드를 Apache 2.0 라이선스 하에 공개한다.
English
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.