Разновидности "самогона": компактные специализированные модели ASR для устройств на периферии
Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
September 2, 2025
Авторы: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI
Аннотация
Мы представляем набор "Flavors of Moonshine" — серию компактных моделей автоматического распознавания речи (ASR), специализированных для ряда недостаточно представленных языков. Согласно общепринятому мнению, многоязычные модели ASR превосходят одноязычные за счет использования межъязыковых фонетических сходств. Мы оспариваем это предположение, демонстрируя, что для достаточно небольших моделей (27 миллионов параметров) обучение одноязычных систем на тщательно сбалансированной смеси высококачественных данных с человеческой разметкой, псевдоразметкой и синтетических данных приводит к существенно более высокой производительности. В среднем наши модели демонстрируют уровень ошибок на 48% ниже, чем модель Whisper Tiny сопоставимого размера, превосходят модель Whisper Small, которая в 9 раз больше, и в большинстве случаев соответствуют или превосходят модель Whisper Medium, которая в 28 раз больше. Эти результаты продвигают современное состояние для моделей такого размера, обеспечивая точное распознавание речи на устройствах для языков, которые ранее имели ограниченную поддержку. Мы выпускаем модели Moonshine для арабского, китайского, японского, корейского, украинского и вьетнамского языков под разрешительной открытой лицензией.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech
recognition (ASR) models specialized for a range of underrepresented languages.
Prevailing wisdom suggests that multilingual ASR models outperform monolingual
counterparts by exploiting cross-lingual phonetic similarities. We challenge
this assumption, showing that for sufficiently small models (27M parameters),
training monolingual systems on a carefully balanced mix of high-quality
human-labeled, pseudo-labeled, and synthetic data yields substantially superior
performance. On average, our models achieve error rates 48% lower than the
comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small
model, and in most cases match or outperform the 28x larger Whisper Medium
model. These results advance the state of the art for models of this size,
enabling accurate on-device ASR for languages that previously had limited
support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and
Vietnamese Moonshine models under a permissive open-source license.