ChatPaper.aiChatPaper

Polyglot-Lion: ASR Multilingüe Eficiente para Singapur mediante Ajuste Fino Equilibrado de Qwen3-ASR

Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR

March 17, 2026
Autores: Quy-Anh Dang, Chris Ngo
cs.AI

Resumen

Presentamos Polyglot-Lion, una familia de modelos compactos de reconocimiento automático del habla (ASR) multilingüe diseñados para el panorama lingüístico de Singapur, que abarca inglés, mandarín, tamil y malayo. Nuestros modelos se obtuvieron mediante el ajuste fino de Qwen3-ASR-0.6B y Qwen3-ASR-1.7B exclusivamente en corpus de voz de acceso público, utilizando una estrategia de muestreo equilibrado que iguala el número de enunciados de entrenamiento por idioma y omite deliberadamente el condicionamiento por etiqueta de idioma para que el modelo aprenda a identificar los idiomas de forma implícita a partir del audio. En 12 puntos de referencia que abarcan los cuatro idiomas objetivo, Polyglot-Lion-1.7B logra una tasa de error promedio de 14.85, siendo competitivo con MERaLiON-2-10B-ASR (14.32) —un modelo 6 veces más grande— mientras incurre en un coste de entrenamiento de 81 dólares en una sola GPU RTX PRO 6000, en comparación con los 18,862 dólares del baseline de 128 GPU. El rendimiento de inferencia es aproximadamente 20 veces más rápido que el de MERaLiON, con 0.10 s/muestra frente a 2.02 s/muestra. Estos resultados demuestran que el ajuste fino lingüísticamente equilibrado de modelos preentrenados de escala moderada puede producir ASR multilingüe listo para implementación a una fracción del coste de sistemas especializados más grandes.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.
PDF13March 19, 2026