Polyglot-Lion: Эффективная многоязычная ASR для Сингапура на основе сбалансированного дообучения модели Qwen3-ASR
Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
March 17, 2026
Авторы: Quy-Anh Dang, Chris Ngo
cs.AI
Аннотация
Мы представляем Polyglot-Lion — семейство компактных многоязычных моделей автоматического распознавания речи (ASR), адаптированных для языкового ландшафта Сингапура и охватывающих английский, китайский (мандарин), тамильский и малайский языки. Наши модели получены путем дообучения моделей Qwen3-ASR-0.6B и Qwen3-ASR-1.7B исключительно на общедоступных речевых корпусах с использованием сбалансированной стратегии выборки, которая уравнивает количество обучающих высказываний для каждого языка и намеренно исключает conditioning по языковым меткам, чтобы модель научилась неявно определять язык по аудио. На 12 тестовых наборах данных, охватывающих четыре целевых языка, модель Polyglot-Lion-1.7B демонстрирует средний уровень ошибок 14.85%, что сопоставимо с результатами модели MERaLiON-2-10B-ASR (14.32%) — которая в 6 раз больше — при этом стоимость обучения составила всего $81 на одной видеокарте RTX PRO 6000 по сравнению с $18,862 для базового варианта на 128 GPU. Пропускная способность при выводе примерно в 20 раз выше, чем у MERaLiON: 0.10 с/выборку против 2.02 с/выборку. Эти результаты демонстрируют, что лингвистически сбалансированное дообучение моделей умеренного масштаба, предварительно обученных на больших данных, позволяет получить готовые к развертыванию многоязычные системы ASR за малую долю стоимости более крупных специализированных систем.
English
We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \81 on a single RTX PRO 6000 GPU compared to 18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.