ChatPaper.aiChatPaper

Informe Técnico de Qwen3-ASR

Qwen3-ASR Technical Report

January 29, 2026
Autores: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

Resumen

En este informe presentamos la familia Qwen3-ASR, que incluye dos potentes modelos integrales de reconocimiento de voz y un novedoso modelo no autoregresivo de alineación forzada de voz. Qwen3-ASR-1.7B y Qwen3-ASR-0.6B son modelos de ASR que admiten identificación de idioma y reconocimiento de voz para 52 idiomas y dialectos. Ambos aprovechan datos de entrenamiento de voz a gran escala y la sólida capacidad de comprensión auditiva de su modelo base Qwen3-Omni. Realizamos una evaluación interna exhaustiva además de los benchmarks de código abierto, ya que los modelos de ASR pueden diferir poco en las puntuaciones de benchmarks públicos pero mostrar diferencias significativas de calidad en escenarios reales. Los experimentos revelan que la versión de 1.7B logra un rendimiento SOTA entre los modelos de ASR de código abierto y es competitiva con las API propietarias más potentes, mientras que la versión de 0.6B ofrece el mejor equilibrio entre precisión y eficiencia. Qwen3-ASR-0.6B puede alcanzar un TTFT promedio tan bajo como 92ms y transcribir 2000 segundos de audio en 1 segundo con una concurrencia de 128. Qwen3-ForcedAligner-0.6B es un predictor de marcas temporales NAR basado en LLM capaz de alinear pares texto-voz en 11 idiomas. Los experimentos de precisión temporal demuestran que el modelo propuesto supera a los tres modelos de alineación forzada más potentes y presenta mayores ventajas en eficiencia y versatilidad. Para acelerar aún más la investigación comunitaria en ASR y comprensión auditiva, publicamos estos modelos bajo licencia Apache 2.0.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.
PDF193January 31, 2026