Polyglot-Lion: Efficiënte meertalige automatische spraakherkenning voor Singapore via gebalanceerd fine-tunen van Qwen3-ASR
Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
March 17, 2026
Auteurs: Quy-Anh Dang, Chris Ngo
cs.AI
Samenvatting
Wij presenteren Polyglot-Lion, een familie van compacte meertalige automatische spraakherkenning (ASH)-modellen, afgestemd op het taallandschap van Singapore, met ondersteuning voor Engels, Mandarijn, Tamil en Maleis. Onze modellen zijn verkregen door het finetunen van Qwen3-ASH-0.6B en Qwen3-ASH-1.7B uitsluitend op publiek beschikbare spraakcorpora, waarbij een gebalanceerde steekproefstrategie wordt gebruikt die het aantal trainingsuitingen per taal gelijk trekt en bewust afziet van conditionering met taallabels, zodat het model leert talen impliciet uit audio te identificeren. Op 12 benchmarks die de vier doeltalen beslaan, behaalt Polyglot-Lion-1.7B een gemiddelde foutmarge van 14,85, wat competitief is met MERaLiON-2-10B-ASH (14,32) – een model dat 6x groter is – tegen een trainingskost van \81 op een enkele RTX PRO 6000 GPU, vergeleken met 18.862 voor de 128-GPU-basislijn. De verwerkingssnelheid bij inferentie is ongeveer 20x sneller dan MERaLiON, met 0,10 s/sample versus 2,02 s/sample. Deze resultaten tonen aan dat linguïstisch gebalanceerd finetunen van voorgetrainde modellen van gemiddelde omvang inzetklare meertalige ASH kan opleveren tegen een fractie van de kost van grotere gespecialiseerde systemen.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.