Sabores de Moonshine: Pequenos Modelos Especializados de ASR para Dispositivos de Borda
Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
September 2, 2025
Autores: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI
Resumo
Apresentamos o Flavors of Moonshine, um conjunto de modelos compactos de reconhecimento automático de fala (ASR) especializados para uma variedade de idiomas sub-representados. A sabedoria predominante sugere que modelos ASR multilíngues superam suas contrapartes monolíngues ao explorar similaridades fonéticas entre idiomas. Desafiamos essa suposição, demonstrando que, para modelos suficientemente pequenos (27 milhões de parâmetros), o treinamento de sistemas monolíngues com uma mistura cuidadosamente balanceada de dados de alta qualidade rotulados por humanos, pseudo-rotulados e sintéticos resulta em um desempenho substancialmente superior. Em média, nossos modelos alcançam taxas de erro 48% menores que o modelo Whisper Tiny de tamanho comparável, superam o modelo Whisper Small, que é 9 vezes maior, e, na maioria dos casos, igualam ou superam o modelo Whisper Medium, que é 28 vezes maior. Esses resultados avançam o estado da arte para modelos desse tamanho, permitindo ASR preciso em dispositivos para idiomas que anteriormente tinham suporte limitado. Lançamos os modelos Moonshine para árabe, chinês, japonês, coreano, ucraniano e vietnamita sob uma licença de código aberto permissiva.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech
recognition (ASR) models specialized for a range of underrepresented languages.
Prevailing wisdom suggests that multilingual ASR models outperform monolingual
counterparts by exploiting cross-lingual phonetic similarities. We challenge
this assumption, showing that for sufficiently small models (27M parameters),
training monolingual systems on a carefully balanced mix of high-quality
human-labeled, pseudo-labeled, and synthetic data yields substantially superior
performance. On average, our models achieve error rates 48% lower than the
comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small
model, and in most cases match or outperform the 28x larger Whisper Medium
model. These results advance the state of the art for models of this size,
enabling accurate on-device ASR for languages that previously had limited
support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and
Vietnamese Moonshine models under a permissive open-source license.