Relatório Técnico do Qwen3-ASR
Qwen3-ASR Technical Report
January 29, 2026
Autores: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
Resumo
Neste relatório, apresentamos a família Qwen3-ASR, que inclui dois poderosos modelos de reconhecimento de fala "all-in-one" e um novo modelo não-autorregressivo de alinhamento forçado de fala. Qwen3-ASR-1.7B e Qwen3-ASR-0.6B são modelos de ASR que suportam identificação de idioma e reconhecimento de fala para 52 idiomas e dialetos. Ambos aproveitam dados de treinamento de fala em larga escala e a forte capacidade de compreensão de áudio do seu modelo base, o Qwen3-Omni. Realizamos uma avaliação interna abrangente, além dos benchmarks de código aberto, pois os modelos de ASR podem diferir pouco nas pontuações dos benchmarks públicos, mas exibir diferenças significativas de qualidade em cenários do mundo real. Os experimentos revelam que a versão de 1.7B atinge desempenho SOTA entre os modelos de ASR de código aberto e é competitiva com as APIs proprietárias mais fortes, enquanto a versão de 0.6B oferece o melhor equilíbrio entre precisão e eficiência. O Qwen3-ASR-0.6B pode alcançar um TTFT médio tão baixo quanto 92ms e transcrever 2000 segundos de fala em 1 segundo com uma concorrência de 128. O Qwen3-ForcedAligner-0.6B é um preditor de timestamp baseado em LLM e NAR capaz de alinhar pares texto-fala em 11 idiomas. Experimentos de precisão de timestamp mostram que o modelo proposto supera os três modelos de alinhamento forçado mais fortes e apresenta mais vantagens em eficiência e versatilidade. Para acelerar ainda mais a pesquisa comunitária em ASR e compreensão de áudio, disponibilizamos estes modelos sob a licença Apache 2.0.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.