ChatPaper.aiChatPaper

# Qwen3-TTS 技術レポート

Qwen3-TTS Technical Report

January 22, 2026
著者: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

要旨

本報告では、高度な多言語対応・制御可能・高ロバスト性・ストリーミング対応のテキスト音声合成モデル群であるQwen3-TTSシリーズを紹介する。Qwen3-TTSは、最先端の3秒音声クローニングと記述ベースの制御をサポートし、全く新しい音声の生成と出力音声のきめ細かな操作を可能にする。10言語にわたる500万時間以上の音声データで学習されたQwen3-TTSは、リアルタイム合成のためにデュアルトラックLMアーキテクチャを採用し、2つの音声トークナイザと組み合わせている:1)Qwen-TTS-Tokenizer-25Hzは、意味内容を重視した単一コードブックのコーデックであり、Qwen-Audioとのシームレスな連携を提供し、ブロック単位のDiTによるストリーミング波形再構成を可能にする。2)Qwen-TTS-Tokenizer-12Hzは、12.5 Hz・16層のマルチコードブック設計と軽量な因果的ConvNetにより、極端なビットレート削減と超低遅延ストリーミングを実現し、初回パケット送出までの時間97msを達成する。大規模な実験により、多様な客観的・主観的ベンチマーク(TTS多言語テストセット、InstructTTSEval、長文音声テストセットなど)において最先端の性能を示す。コミュニティの研究開発を促進するため、両トークナイザとモデルをApache 2.0ライセンスの下で公開する。
English
In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.
PDF200January 24, 2026