ChatPaper.aiChatPaper

Rapport Technique de Qwen3-ASR

Qwen3-ASR Technical Report

January 29, 2026
papers.authors: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Dans ce rapport, nous présentons la famille Qwen3-ASR, qui comprend deux modèles puissants de reconnaissance vocale tout-en-un et un nouveau modèle non-autorégressif d'alignement forcé audio-texte. Qwen3-ASR-1.7B et Qwen3-ASR-0.6B sont des modèles de reconnaissance vocale qui prennent en charge l'identification de langue et la reconnaissance vocale pour 52 langues et dialectes. Tous deux tirent parti de données d'entraînement vocales à grande échelle et des solides capacités de compréhension audio de leur modèle de base, Qwen3-Omni. Nous menons une évaluation interne exhaustive en plus des benchmarks open-source, car les modèles de reconnaissance vocale peuvent afficher des scores similaires sur les benchmarks publics mais présenter des différences de qualité significatives dans les scénarios réels. Les expériences révèlent que la version 1.7B obtient des performances à l'état de l'art parmi les modèles de reconnaissance vocale open-source et est compétitive avec les API propriétaires les plus performantes, tandis que la version 0.6B offre le meilleur compromis précision-efficacité. Qwen3-ASR-0.6B peut atteindre un TTFT moyen aussi faible que 92 ms et transcrire 2000 secondes d'audio en 1 seconde avec un niveau de concurrence de 128. Qwen3-ForcedAligner-0.6B est un prédicteur d'horodatage non-autorégressif basé sur un grand modèle de langage, capable d'aligner des paires texte-audio dans 11 langues. Les expériences sur la précision des horodatages montrent que le modèle proposé surpasse les trois modèles d'alignement forcé les plus performants et présente des avantages en termes d'efficacité et de polyvalence. Pour accélérer davantage la recherche communautaire sur la reconnaissance vocale et la compréhension audio, nous publions ces modèles sous licence Apache 2.0.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.
PDF193January 31, 2026