ChatPaper.aiChatPaper

Qwen3-TTS Technischer Bericht

Qwen3-TTS Technical Report

January 22, 2026
papers.authors: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

In diesem Bericht stellen wir die Qwen3-TTS-Serie vor, eine Familie fortschrittlicher multilingualer, steuerbarer, robuster und Streaming-fähiger Text-zu-Sprache-Modelle. Qwen3-TTS unterstützt modernstes 3-Sekunden-Sprachklonen und beschreibungsbasierte Steuerung, was sowohl die Erstellung völlig neuartiger Stimmen als auch eine fein granulierte Manipulation der Ausgabesprache ermöglicht. Qwen3-TTS wurde mit über 5 Millionen Stunden Sprachdaten aus 10 Sprachen trainiert und verwendet eine Dual-Track-LM-Architektur für Echtzeitsynthese, kombiniert mit zwei Sprach-Tokenizern: 1) Qwen-TTS-Tokenizer-25Hz ist ein Single-Codebook-Codec mit Fokus auf semantischen Inhalt, der eine nahtlose Integration mit Qwen-Audio ermöglicht und Streaming-Wellenformenrekonstruktion via blockweisem DiT erlaubt. 2) Qwen-TTS-Tokenizer-12Hz erreicht eine extreme Bitratenreduzierung und Ultra-Low-Latency-Streaming, ermöglicht durch sein 12,5 Hz, 16-Lagen-Multi-Codebook-Design und ein leichtgewichtiges kausales ConvNet einen sofortigen First-Packet-Versand (97 ms). Umfangreiche Experimente belegen state-of-the-art Leistung in diversen objektiven und subjektiven Benchmarks (z.B. TTS multilingualer Testdatensatz, InstructTTSEval und unser Langsprach-Testdatensatz). Um die Community-Forschung und -entwicklung zu fördern, veröffentlichen wir beide Tokenizer und Modelle unter der Apache-2.0-Lizenz.
English
In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.
PDF200January 24, 2026