Qwen3-ASR Technisch Rapport

Samenvatting

In dit rapport introduceren we de Qwen3-ASR-familie, die bestaat uit twee krachtige alles-in-één spraakherkenningsmodellen en een nieuw niet-autoregressief model voor geforceerde spraakalignering. Qwen3-ASR-1.7B en Qwen3-ASR-0.6B zijn ASR-modellen die taalidentificatie en spraakherkenning ondersteunen voor 52 talen en dialecten. Beide modellen maken gebruik van grootschalige spraaktrainingsgegevens en de sterke audiobegripscapaciteiten van hun foundation model Qwen3-Omni. Naast de opensource-benchmarks voeren we een uitgebreide interne evaluatie uit, omdat ASR-modellen weinig kunnen verschillen in opensource-benchmarkscores maar aanzienlijke kwaliteitsverschillen kunnen vertonen in realistische scenario's. De experimenten tonen aan dat de 1.7B-versie state-of-the-art prestaties bereikt onder opensource-ASR-modellen en concurrerend is met de sterkste propriëtaire API's, terwijl de 0.6B-versie de beste nauwkeurigheid-efficiëntieverhouding biedt. Qwen3-ASR-0.6B kan een gemiddelde TTFT bereiken van slechts 92 ms en 2000 seconden spraak transcriberen in 1 seconde bij een gelijktijdigheid van 128. Qwen3-ForcedAligner-0.6B is een op LLM gebaseerde NAR-tijdstempelvoorspeller die tekst-spraakparen kan aligneren in 11 talen. Experimenten met tijdstempelnauwkeurigheid tonen aan dat het voorgestelde model beter presteert dan de drie sterkste geforceerde aligneringsmodellen en meer voordelen biedt op het gebied van efficiëntie en veelzijdigheid. Om het gemeenschapsonderzoek naar ASR en audiobegrip verder te versnellen, geven we deze modellen vrij onder de Apache 2.0-licentie.

English

In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.

Qwen3-ASR Technisch Rapport

Qwen3-ASR Technical Report

Samenvatting

Support