ChatPaper.aiChatPaper

Sabores de Moonshine: Pequenos Modelos Especializados de ASR para Dispositivos de Borda

Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

September 2, 2025
Autores: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI

Resumo

Apresentamos o Flavors of Moonshine, um conjunto de modelos compactos de reconhecimento automático de fala (ASR) especializados para uma variedade de idiomas sub-representados. A sabedoria predominante sugere que modelos ASR multilíngues superam suas contrapartes monolíngues ao explorar similaridades fonéticas entre idiomas. Desafiamos essa suposição, demonstrando que, para modelos suficientemente pequenos (27 milhões de parâmetros), o treinamento de sistemas monolíngues com uma mistura cuidadosamente balanceada de dados de alta qualidade rotulados por humanos, pseudo-rotulados e sintéticos resulta em um desempenho substancialmente superior. Em média, nossos modelos alcançam taxas de erro 48% menores que o modelo Whisper Tiny de tamanho comparável, superam o modelo Whisper Small, que é 9 vezes maior, e, na maioria dos casos, igualam ou superam o modelo Whisper Medium, que é 28 vezes maior. Esses resultados avançam o estado da arte para modelos desse tamanho, permitindo ASR preciso em dispositivos para idiomas que anteriormente tinham suporte limitado. Lançamos os modelos Moonshine para árabe, chinês, japonês, coreano, ucraniano e vietnamita sob uma licença de código aberto permissiva.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and synthetic data yields substantially superior performance. On average, our models achieve error rates 48% lower than the comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small model, and in most cases match or outperform the 28x larger Whisper Medium model. These results advance the state of the art for models of this size, enabling accurate on-device ASR for languages that previously had limited support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and Vietnamese Moonshine models under a permissive open-source license.
PDF41September 3, 2025