Qwen3-ASR技术报告
Qwen3-ASR Technical Report
January 29, 2026
著者: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
要旨
本報告では、強力なオールインワン音声認識モデル2種と、新しい非自己回帰型音声強制アライメントモデルからなるQwen3-ASRファミリーを紹介する。Qwen3-ASR-1.7BおよびQwen3-ASR-0.6Bは、52の言語と方言における言語識別と音声認識をサポートするASRモデルである。両モデルは大規模な音声学習データと、基盤モデルであるQwen3-Omniの強力な音声理解能力を活用している。オープンソースのベンチマークスコアではASRモデル間の差が小さくても実際のシナリオでは品質に大きな差が生じうるため、公開ベンチマークに加えて包括的な内部評価を実施した。実験結果から、1.7B版はオープンソースASRモデルの中でSOTA性能を達成し最強のプロプライエタリAPIとも互角である一方、0.6B版は最高の精度と効率のトレードオフを提供することが明らかになった。Qwen3-ASR-0.6Bは平均TTFT 92msを達成可能で、128並列時に1秒で2000秒の音声を転写できる。Qwen3-ForcedAligner-0.6BはLLMベースのNARタイムスタンプ予測器であり、11言語のテキスト-音声ペアのアライメントが可能である。タイムスタンプ精度実験では、提案モデルが既存の最強3つの強制アライメントモデルを性能で上回り、効率性と汎用性でより優位であることが示された。ASR及び音声理解のコミュニティ研究をさらに加速させるため、これらのモデルをApache 2.0ライセンスの下で公開する。
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.