ChatPaper.aiChatPaper

Технический отчет по Qwen3-TTS

Qwen3-TTS Technical Report

January 22, 2026
Авторы: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

В данном отчете представлена серия Qwen3-TTS — семейство передовых многозадачных, управляемых, надежных и потоковых моделей преобразования текста в речь. Qwen3-TTS поддерживает передовое клонирование голоса за 3 секунды и управление на основе описания, позволяя как создавать совершенно новые голоса, так и осуществлять детальный контроль над выходной речью. Обученная на более чем 5 миллионах часов речевых данных на 10 языках, Qwen3-TTS использует архитектуру языковой модели с двойной траекторией для синтеза в реальном времени в сочетании с двумя токенизаторами речи: 1) Qwen-TTS-Tokenizer-25Hz — это кодек с одной кодбукой, акцентирующий семантическое содержание, который обеспечивает бесшовную интеграцию с Qwen-Audio и позволяет осуществлять потоковую реконструкцию волновой формы с помощью блочного DiT. 2) Qwen-TTS-Tokenizer-12Hz достигает экстремального снижения битрейта и сверхмалой задержки при потоковой передаче, обеспечивая немедленную отправку первого пакета (97 мс) благодаря своей 16-слойной мультикодбуке с частотой 12.5 Гц и легковесному каузальному ConvNet. Многочисленные эксперименты демонстрируют передовую производительность в различных объективных и субъективных тестах (например, многозадачный тестовый набор TTS, InstructTTSEval и наш тестовый набор длинной речи). Для содействия исследованиям и разработкам в сообществе мы выпускаем оба токенизатора и модели под лицензией Apache 2.0.
English
In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.
PDF200January 24, 2026