Rapport Technique de Qwen3-TTS

Résumé

Dans ce rapport, nous présentons la série Qwen3-TTS, une famille de modèles de synthèse vocale avancés, multilingues, contrôlables, robustes et fonctionnant en flux continu. Qwen3-TTS prend en charge un clonage vocal de pointe en 3 secondes ainsi qu'un contrôle par description, permettant à la fois la création de voix entièrement nouvelles et une manipulation fine de la parole générée. Entraîné sur plus de 5 millions d'heures de données vocales couvrant 10 langues, Qwen3-TTS adopte une architecture de modèle de langage à double piste pour une synthèse en temps réel, couplée à deux tokenizers vocaux : 1) Qwen-TTS-Tokenizer-25Hz est un codec à livre de codes unique privilégiant le contenu sémantique, qui permet une intégration transparente avec Qwen-Audio et une reconstruction de forme d'onde en flux continu via un DiT par blocs. 2) Qwen-TTS-Tokenizer-12Hz réalise une réduction extrême du débit binaire et un streaming à très faible latence, permettant une émission immédiate du premier paquet (97 ms) grâce à sa conception multi-livres de codes à 12,5 Hz et 16 couches, et un ConvNet causal léger. Des expériences approfondies indiquent des performances à l'état de l'art sur divers benchmarks objectifs et subjectifs (par exemple, l'ensemble de test multilingue TTS, InstructTTSEval et notre ensemble de test de parole longue). Pour favoriser la recherche et le développement communautaires, nous publions les tokenizers et les modèles sous licence Apache 2.0.

English

In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.

Rapport Technique de Qwen3-TTS

Qwen3-TTS Technical Report

Résumé

Support