ChatPaper.aiChatPaper

# Rapporto Tecnico di Qwen3-ASR

Qwen3-ASR Technical Report

January 29, 2026
Autori: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

Abstract

In questo rapporto presentiamo la famiglia Qwen3-ASR, che include due potenti modelli all-in-one per il riconoscimento vocale e un innovativo modello non autoregressivo per l'allineamento forzato del parlato. Qwen3-ASR-1.7B e Qwen3-ASR-0.6B sono modelli ASR che supportano l'identificazione linguistica e il riconoscimento vocale per 52 lingue e dialetti. Entrambi si avvalgono di dati di addestramento vocali su larga scala e della forte capacità di comprensione audio del loro modello base Qwen3-Omni. Oltre ai benchmark open-source, abbiamo condotto una valutazione interna completa, poiché i modelli ASR possono mostrare differenze minori nei punteggi dei benchmark aperti, ma differenze qualitative significative negli scenari reali. Gli esperimenti rivelano che la versione 1.7B raggiunge prestazioni SOTA tra i modelli ASR open-source ed è competitiva con le API proprietarie più potenti, mentre la versione 0.6B offre il miglior compromesso precisione-efficienza. Qwen3-ASR-0.6B può raggiungere un TTFT medio di soli 92ms e trascrivere 2000 secondi di parlato in 1 secondo con una concorrenza di 128. Qwen3-ForcedAligner-0.6B è un predittore di timestamp basato su LLM di tipo NAR in grado di allineare coppie testo-audio in 11 lingue. Esperimenti sull'accuratezza dei timestamp mostrano che il modello proposto supera i tre modelli di allineamento forzato più potenti e offre maggiori vantaggi in termini di efficienza e versatilità. Per accelerare ulteriormente la ricerca comunitaria sull'ASR e la comprensione audio, rilasciamo questi modelli con licenza Apache 2.0.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.
PDF353February 16, 2026