ChatPaper.aiChatPaper

Qwen3-ASR 기술 보고서

Qwen3-ASR Technical Report

January 29, 2026
저자: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin
cs.AI

초록

본 보고서에서는 두 가지 강력한 올인원 음성 인식 모델과 새로운 비자회귀 음성 강제 정렬 모델로 구성된 Qwen3-ASR 패밀리를 소개합니다. Qwen3-ASR-1.7B와 Qwen3-ASR-0.6B는 52개 언어 및 방언에 대한 언어 식별과 음성 인식을 지원하는 ASR 모델입니다. 두 모델 모두 대규모 음성 학습 데이터와 기반 모델 Qwen3-Omni의 뛰어난 오디오 이해 능력을 활용합니다. 오픈소스 벤치마크 점수에서는 ASR 모델 간 차이가 미미할 수 있으나 실제 시나리오에서는 품질 차이가 현저히 나타날 수 있으므로, 공개 벤치마크 외에도 포괄적인 내부 평가를 수행했습니다. 실험 결과, 1.7B 버전은 오픈소스 ASR 모델 중 SOTA 성능을 달성하며 최고의 상용 API와 경쟁력을 보인 반면, 0.6B 버전은 최고의 정확도-효율성 균형을 제공합니다. Qwen3-ASR-0.6B는 평균 TTFT 92ms까지 달성하고 동시 접속 128 기준 1초 만에 2000초 분량 음성을 변환할 수 있습니다. Qwen3-ForcedAligner-0.6B는 11개 언어에서 텍스트-음성 쌍을 정렬할 수 있는 LLM 기반 비자회귀 타임스탬프 예측 모델입니다. 타임스탬프 정확도 실험에서 제안 모델은 기존 최고 강제 정렬 모델 3개를 능가하며 효율성과 다양성에서 더 큰 이점을 보입니다. ASR 및 오디오 이해 분야의 커뮤니티 연구 가속화를 위해 본 모델들을 Apache 2.0 라이선스 하에 공개합니다.
English
In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.
PDF193January 31, 2026