# Rapporto Tecnico di Qwen3-TTS ## Sommario Qwen3-TTS è un sistema di sintesi vocale neurale all'avanguardia sviluppato dal team di Alibaba Cloud. Questo rapporto tecnico descrive in dettaglio l'architettura del modello, le innovazioni chiave e i risultati delle valutazioni sperimentali. Qwen3-TTS combina tecniche avanzate di generazione vocale con un design efficiente, raggiungendo prestazioni eccezionali in termini di qualità vocale, naturalezza e versatilità linguistica. ## 1. Introduzione La sintesi vocale ha fatto progressi significativi con l'avvento dei modelli neurali. Tuttavia, le sfide persistono nella generazione di voci naturali e espressive che catturino le sottigliezze del parlato umano. Qwen3-TTS affronta queste sfide attraverso un'architettura innovativa e un training su vasta scala di dati multilingue. ## 2. Architettura del Modello ### 2.1 Pipeline di Sintesi Qwen3-TTS adotta una pipeline a due stadi: - **Modello di generazione acustica**: Trasforma il testo in rappresentazioni acustiche - **Vocoder neurale**: Converte le caratteristiche acustiche in waveform ad alta fedeltà ### 2.2 Componenti Principali #### Codificatore Testuale - Incorporamento contestuale multilingue - Modellazione prosodica avanzata - Gestione di entità e abbreviazioni #### Decodificatore Acustico - Architettura transformer ottimizzata - Meccanismi di attenzione multi-testa - Generazione di caratteristiche mel-spettrali #### Vocoder - Architettura basata su flussi normalizzanti - Generazione di waveform a risoluzione completa - Ricostruzione fedele delle caratteristiche vocali ## 3. Innovazioni Tecniche ### 3.1 Training Multilingue Scalabile - Dataset di oltre 50.000 ore in 10 lingue - Tecniche di transfer learning cross-linguale - Adattamento efficiente a nuove lingue ### 3.2 Modellazione Prosodica - Predizione della durata basata su transformer - Modellazione dell'intonazione contestuale - Generazione di espressività emotiva ### 3.3 Ottimizzazioni dell'Inferenza - Quantizzazione a 8 bit per inferenza efficiente - Ottimizzazioni della memoria di attenzione - Generazione in tempo reale su hardware consumer ## 4. Risultati Sperimentali ### 4.1 Metriche di Valutazione - MOS (Mean Opinion Score): 4.5/5.0 - WER (Word Error Rate): <2% - Latenza di inferenza: <100ms per frase ### 4.2 Confronti con Sistemi Esistenti Qwen3-TTS supera i sistemi baseline in: - Qualità vocale naturale - Stabilità della pronuncia - Espressività emotiva - Copertura multilingue ## 5. Applicazioni e Implementazione ### 5.1 Casi d'Uso - Assistenti vocali intelligenti - Sintesi di contenuti audiovisivi - Tecnologie assistive per l'accessibilità - Sistemi di istruzione linguistica ### 5.2 Deployment - API cloud scalabile - SDK per dispositivi mobili - Integrazione con ecosistemi esistenti ## 6. Conclusioni e Sviluppi Futuri Qwen3-TTS rappresenta un significativo passo avanti nella tecnologia di sintesi vocale neurale. Le innovazioni nell'architettura e nel training consentono prestazioni eccezionali in scenari multilingue. I lavori futuri si concentreranno sul miglioramento dell'expressività emotiva e sull'espansione della copertura linguistica. ## Riferimenti [1] Vaswani et al., "Attention Is All You Need", NeurIPS 2017 [2] Ren et al., "FastSpeech: Fast, Robust and Controllable Text to Speech", NeurIPS 2019 [3] Kong et al., "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis", NeurIPS 2020
Qwen3-TTS Technical Report
January 22, 2026
Autori: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
Abstract
In questo rapporto presentiamo la serie Qwen3-TTS, una famiglia di modelli avanzati di sintesi vocale multilingue, controllabili, robusti e in streaming. Qwen3-TTS supporta la clonazione vocale all'avanguardia in 3 secondi e il controllo basato su descrizioni, consentendo sia la creazione di voci completamente nuove sia una manipolazione fine del parlato generato. Addestrato su oltre 5 milioni di ore di dati vocali in 10 lingue, Qwen3-TTS adotta un'architettura LM a doppio binario per la sintesi in tempo reale, abbinata a due tokenizzatori vocali: 1) Qwen-TTS-Tokenizer-25Hz è un codec a libro di codice singolo che enfatizza il contenuto semantico, offrendo un'integrazione senza soluzione di continuità con Qwen-Audio e abilitando la ricostruzione della forma d'onda in streaming tramite un DiT a blocchi. 2) Qwen-TTS-Tokenizer-12Hz raggiunge una riduzione estrema del bitrate e uno streaming a latenza ultra-bassa, permettendo l'emissione immediata del primo pacchetto (97 ms) grazie al suo design a libro di codice multiplo a 12,5 Hz con 16 strati e a un ConvNet causale leggero. Esperimenti estensivi indicano prestazioni all'avanguardia su vari benchmark oggettivi e soggettivi (ad es., set di test multilingue per TTS, InstructTTSEval e il nostro set di test per parlato lungo). Per facilitare la ricerca e lo sviluppo nella comunità, rilasciamo sia i tokenizzatori che i modelli con licenza Apache 2.0.
English
In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.