Qwen3-ASR Technischer Bericht
Qwen3-ASR Technical Report
January 29, 2026
papers.authors: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
papers.abstract
In diesem Bericht stellen wir die Qwen3-ASR-Familie vor, die zwei leistungsstarke All-in-One-Spracherkennungsmodelle und ein neuartiges nicht-autoregressives Modell zur Sprach-Forced-Alignment umfasst. Bei Qwen3-ASR-1.7B und Qwen3-ASR-0.6B handelt es sich um ASR-Modelle, die Spracherkennung und Sprachidentifikation für 52 Sprachen und Dialekte unterstützen. Beide nutzen umfangreiche Sprach-Trainingsdaten und die starken Audioverständnisfähigkeiten ihres Foundation-Modells Qwen3-Omni. Neben öffentlichen Benchmarks führen wir umfassende interne Evaluationen durch, da ASR-Modelle in öffentlichen Benchmarks nur geringfügig abweichen, in realen Szenarien jedoch erhebliche Qualitätsunterschiede aufweisen können. Die Experimente zeigen, dass die 1.7B-Version unter den quelloffenen ASR-Modellen SOTA-Leistung erzielt und mit den stärksten proprietären APIs konkurrieren kann, während die 0.6B-Version das beste Genauigkeits-Effizienz-Verhältnis bietet. Qwen3-ASR-0.6B kann eine durchschnittliche TTFT von nur 92 ms erreichen und bei einer Parallelität von 128 2000 Sekunden Sprache in 1 Sekunde transkribieren. Qwen3-ForcedAligner-0.6B ist ein LLM-basierter NAR-Zeitstempel-Prädiktor, der Text-Sprach-Paare in 11 Sprachen alignieren kann. Experimente zur Zeitstempelgenauigkeit zeigen, dass das vorgeschlagene Modell die drei stärksten Force-Alignment-Modelle übertrifft und Vorteile in Effizienz und Vielseitigkeit bietet. Um die Community-Forschung zu ASR und Audioverständnis weiter zu beschleunigen, veröffentlichen wir diese Modelle unter der Apache-2.0-Lizenz.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.