# Informe Técnico de Qwen3-TTS

Resumen

En este informe, presentamos la serie Qwen3-TTS, una familia de modelos avanzados de conversión de texto a voz multilingües, controlables, robustos y de transmisión en flujo continuo. Qwen3-TTS es compatible con la clonación de voz de última generación a partir de 3 segundos y el control basado en descripciones, lo que permite tanto la creación de voces completamente nuevas como una manipulación de grano fino del habla de salida. Entrenado con más de 5 millones de horas de datos de voz que abarcan 10 idiomas, Qwen3-TTS adopta una arquitectura de modelo de lenguaje de doble pista para la síntesis en tiempo real, junto con dos tokenizadores de voz: 1) Qwen-TTS-Tokenizer-25Hz es un códec de libro de códigos único que enfatiza el contenido semántico, ofrece una integración perfecta con Qwen-Audio y permite la reconstrucción de la forma de onda en flujo continuo mediante un DiT por bloques. 2) Qwen-TTS-Tokenizer-12Hz logra una reducción extrema de la tasa de bits y una transmisión en flujo continuo de ultra baja latencia, permitiendo la emisión inmediata del primer paquete (97 ms) gracias a su diseño de libro de códigos múltiples de 12,5 Hz y 16 capas y una red ConvNet causal ligera. Experimentos exhaustivos indican un rendimiento de vanguardia en diversos puntos de referencia objetivos y subjetivos (por ejemplo, el conjunto de pruebas multilingüe para TTS, InstructTTSEval y nuestro conjunto de pruebas de habla larga). Para facilitar la investigación y el desarrollo comunitario, publicamos tanto los tokenizadores como los modelos bajo la licencia Apache 2.0.

English

In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.