Polyglot-Lion: ASR Multilíngue Eficiente para Singapura via Ajuste Fino Balanceado do Qwen3-ASR
Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
March 17, 2026
Autores: Quy-Anh Dang, Chris Ngo
cs.AI
Resumo
Apresentamos a família Polyglot-Lion, um conjunto de modelos compactos de reconhecimento automático de fala (ASR) multilíngue, desenvolvidos para o panorama linguístico de Singapura, abrangendo Inglês, Mandarim, Tâmil e Malaio. Os nossos modelos foram obtidos através do ajuste fino dos modelos Qwen3-ASR-0.6B e Qwen3-ASR-1.7B exclusivamente em corpora de fala publicamente disponíveis, utilizando uma estratégia de amostragem equilibrada que iguala o número de enunciados de treino por idioma e que deliberadamente omite a condicionamento por etiqueta de idioma, para que o modelo aprenda a identificar os idiomas implicitamente a partir do áudio. Em 12 benchmarks que abrangem os quatro idiomas-alvo, o Polyglot-Lion-1.7B alcança uma taxa média de erro de 14.85, um resultado competitivo com o MERaLiON-2-10B-ASR (14.32) – um modelo 6 vezes maior – enquanto incorre num custo de treino de \81 numa única GPU RTX PRO 6000, em comparação com 18.862 para a linha de base de 128 GPUs. O débito de inferência é aproximadamente 20 vezes mais rápido do que o do MERaLiON, com 0.10 s/amostra contra 2.02 s/amostra. Estes resultados demonstram que o ajuste fino linguisticamente equilibrado de modelos pré-treinados de escala moderada pode produzir ASR multilíngue pronto para implantação a uma fração do custo de sistemas especializados de maior dimensão.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.