Polyglot-Lion: Effiziente mehrsprachige automatische Spracherkennung für Singapur durch ausgewogenes Fine-Tuning von Qwen3-ASR
Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
March 17, 2026
Autoren: Quy-Anh Dang, Chris Ngo
cs.AI
Zusammenfassung
Wir stellen Polyglot-Lion vor, eine Familie kompakter multilingualer Modelle für die automatische Spracherkennung (ASR), die auf die sprachliche Landschaft Singapurs zugeschnitten sind und Englisch, Mandarin, Tamil und Malaysisch abdecken. Unsere Modelle wurden durch Feinabstimmung von Qwen3-ASR-0.6B und Qwen3-ASR-1.7B ausschließlich auf öffentlich verfügbaren Sprachkorpora gewonnen. Dabei wurde eine ausgewogene Stichprobenstrategie verwendet, die die Anzahl der Trainingsäußerungen pro Sprache angleicht und bewusst auf eine Sprachkennzeichnung als Konditionierung verzichtet, sodass das Modell lernt, Sprachen implizit aus den Audiodaten zu identifizieren. Auf 12 Benchmarks, die die vier Zielsprachen abdecken, erreicht Polyglot-Lion-1.7B eine durchschnittliche Fehlerrate von 14,85 und ist damit vergleichbar mit MERaLiON-2-10B-ASR (14,32) – einem sechsmal größeren Modell – bei gleichzeitig erheblich geringeren Trainingskosten von 81 US-Dollar auf einer einzelnen RTX PRO 6000 GPU im Vergleich zu 18.862 US-Dollar für den 128-GPU-Baseline. Der Inferenz-Durchsatz ist mit 0,10 s/Probe gegenüber 2,02 s/Probe etwa 20-mal schneller als bei MERaLiON. Diese Ergebnisse zeigen, dass eine sprachlich ausgewogene Feinabstimmung mittelgroßer vortrainierter Modelle einsatzbereite multilinguale ASR-Systeme zu einem Bruchteil der Kosten größerer Speziallösungen liefern kann.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.