Технический отчет по Qwen3-ASR
Qwen3-ASR Technical Report
January 29, 2026
Авторы: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI
Аннотация
В данном отчете представлено семейство моделей Qwen3-ASR, включающее две мощные всеобъемлющие модели распознавания речи и новую неавторегрессионную модель форсированного выравнивания речи. Qwen3-ASR-1.7B и Qwen3-ASR-0.6B — это модели ASR, поддерживающие идентификацию языка и распознавание речи для 52 языков и диалектов. Обе модели используют крупномасштабные данные обучения речи и мощные способности к аудиопониманию базовой модели Qwen3-Omni. Мы провели всестороннюю внутреннюю оценку в дополнение к открытым бенчмаркам, поскольку модели ASR могут незначительно отличаться по показателям на открытых бенчмарках, но демонстрировать существенную разницу в качестве в реальных сценариях. Эксперименты показывают, что версия 1.7B достигает состояния искусства (SOTA) среди открытых моделей ASR и конкурирует с самыми мощными проприетарными API, тогда как версия 0.6B предлагает наилучший баланс точности и эффективности. Qwen3-ASR-0.6B способна достигать среднего времени до первого токена (TTFT) всего 92 мс и транскрибировать 2000 секунд речи за 1 секунду при параллелизме 128. Qwen3-ForcedAligner-0.6B — это предиктор временных меток на основе LLM с неавторегрессионной архитектурой, способный выравнивать текстово-речевые пары на 11 языках. Эксперименты по точности временных меток демонстрируют, что предложенная модель превосходит три сильнейшие модели форсированного выравнивания и имеет преимущества в эффективности и универсальности. Для дальнейшего ускорения исследований в области ASR и аудиопонимания в сообществе мы выпускаем эти модели под лицензией Apache 2.0.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.