ChatPaper.aiChatPaper

Polyglot-Lion : Une reconnaissance automatique de la parole multilingue efficace pour Singapour via un réglage fin équilibré de Qwen3-ASR

Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR

March 17, 2026
Auteurs: Quy-Anh Dang, Chris Ngo
cs.AI

Résumé

Nous présentons Polyglot-Lion, une famille de modèles compacts de reconnaissance automatique de la parole (ASR) multilingues conçue pour le paysage linguistique de Singapour, couvrant l'anglais, le mandarin, le tamoul et le malais. Nos modèles sont obtenus par affinage de Qwen3-ASR-0.6B et Qwen3-ASR-1.7B exclusivement sur des corpus vocaux publics, en utilisant une stratégie d'échantillonnage équilibrée qui égalise le nombre d'énoncés d'entraînement par langue et omet délibérément le conditionnement par étiquette de langue afin que le modèle apprenne à identifier les langues implicitement à partir de l'audio. Sur 12 benchmarks couvrant les quatre langues cibles, Polyglot-Lion-1.7B atteint un taux d'erreur moyen de 14,85, ce qui est compétitif avec MERaLiON-2-10B-ASR (14,32) – un modèle 6 fois plus grand – tout en nécessitant un coût d'entraînement de 81 $ sur un seul GPU RTX PRO 6000 contre 18 862 $ pour la référence utilisant 128 GPU. Le débit d'inférence est environ 20 fois plus rapide que MERaLiON, à 0,10 s/échantillon contre 2,02 s/échantillon. Ces résultats démontrent qu'un affinage linguistiquement équilibré de modèles pré-entraînés de taille modérée peut produire des systèmes ASR multilingues prêts au déploiement pour une fraction du coût des systèmes spécialisés plus volumineux.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.
PDF13March 19, 2026