Qwen3-TTS Technisch Rapport
Qwen3-TTS Technical Report
January 22, 2026
Auteurs: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
Samenvatting
In dit rapport presenteren wij de Qwen3-TTS-reeks, een familie van geavanceerde, meertalige, bestuurbare, robuuste en streaming tekst-naar-spraakmodellen. Qwen3-TTS ondersteunt state-of-the-art stemklonering in 3 seconden en op beschrijving gebaseerde controle, wat zowel de creatie van volledig nieuwe stemmen als fijnmazige manipulatie van de uitgesproken spraak mogelijk maakt. Getraind op meer dan 5 miljoen uur spraakdata in 10 talen, hanteert Qwen3-TTS een dual-track LM-architectuur voor real-time synthese, gekoppeld aan twee spraak-tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is een single-codebook codec die de nadruk legt op semantische inhoud, zorgt voor naadloze integratie met Qwen-Audio en maakt streaming golfvormreconstructie mogelijk via een bloksgewijze DiT. 2) Qwen-TTS-Tokenizer-12Hz bereikt een extreme bitrateverlaging en ultra-lage latentie voor streaming, waardoor onmiddellijke emissie van het eerste pakket (97 ms) mogelijk is dankzij zijn 12,5 Hz, 16-laags multi-codebook ontwerp en een lichtgewicht causaal ConvNet. Uitgebreide experimenten tonen state-of-the-art prestaties aan op uiteenlopende objectieve en subjectieve benchmarks (bijv. TTS meertalige testset, InstructTTSEval en onze lange-spraak-testset). Om onderzoek en ontwikkeling in de community te faciliteren, geven wij zowel de tokenizers als de modellen vrij onder de Apache 2.0-licentie.
English
In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.