Polyglot-Lion: ASR multilingue efficiente per Singapore tramite fine-tuning bilanciato di Qwen3-ASR
Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
March 17, 2026
Autori: Quy-Anh Dang, Chris Ngo
cs.AI
Abstract
Presentiamo Polyglot-Lion, una famiglia di modelli compatti di riconoscimento automatico del parlato (ASR) multilingue, progettata per il panorama linguistico di Singapore, che copre inglese, mandarino, tamil e malese. I nostri modelli sono ottenuti addestrando tramite fine-tuning i modelli Qwen3-ASR-0.6B e Qwen3-ASR-1.7B esclusivamente su corpora vocali pubblicamente disponibili, utilizzando una strategia di campionamento bilanciata che equalizza il numero di enunciati di addestramento per lingua e omette deliberatamente il condizionamento tramite tag linguistici, in modo che il modello impari a identificare le lingue implicitamente dall'audio. Su 12 benchmark che coprono le quattro lingue target, Polyglot-Lion-1.7B raggiunge un tasso di errore medio del 14.85, risultando competitivo con MERaLiON-2-10B-ASR (14.32) – un modello 6 volte più grande – mentre richiede un costo di addestramento di 81$ su una singola GPU RTX PRO 6000, rispetto ai 18.862$ del baseline su 128 GPU. La velocità di inferenza è approssimativamente 20 volte più veloce di MERaLiON, con 0.10 s/campione rispetto a 2.02 s/campione. Questi risultati dimostrano che un fine-tuning linguisticamente bilanciato di modelli pre-addestrati di scala moderata può produrre sistemi ASR multilingue pronti per la distribuzione a una frazione del costo di sistemi specialistici più grandi.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.