Qwen3-TTS 기술 보고서
Qwen3-TTS Technical Report
January 22, 2026
저자: Hangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
초록
본 보고서에서는 고급 다국어, 제어 가능, 강건 및 스트리밍 텍스트-음성 변환 모델 군인 Qwen3-TTS 시리즈를 소개합니다. Qwen3-TTS는 최첨단 3초 음성 복제 및 설명 기반 제어를 지원하여 완전히 새로운 음성 생성과 출력 음성의 세밀한 조작을 모두 가능하게 합니다. 10개 언어에 걸쳐 500만 시간 이상의 음성 데이터로 학습된 Qwen3-TTS는 실시간 합성을 위한 듀얼 트랙 LM 아키텍처와 두 가지 음성 토크나이저를 채택했습니다: 1) Qwen-TTS-Tokenizer-25Hz는 의미론적 콘텐츠를 중시하는 단일 코드북 코덱으로, Qwen-Audio와의 원활한 통합을 제공하며 블록 단위 DiT를 통한 스트리밍 파형 재구성을 가능하게 합니다. 2) Qwen-TTS-Tokenizer-12Hz는 12.5Hz, 16계층 멀티 코드북 설계와 경량 인과적 ConvNet을 통해 극단적인 비트레이트 감소 및 초저지연 스트리밍을 달성하여 첫 패킷 즉시 전송(97ms)을 가능하게 합니다. 다양한 객관적 및 주관적 벤치마크(예: TTS 다국어 테스트 세트, InstructTTSEval, 장문 음성 테스트 세트)에서의 광범위한 실험은 최첨단 성능을 입증합니다. 커뮤니티 연구 및 개발을 촉진하기 위해 두 토크나이저와 모델을 Apache 2.0 라이선스 하에 공개합니다.
English
In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.