Sabores de Moonshine: Pequeños Modelos Especializados de ASR para Dispositivos de Borde
Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
September 2, 2025
Autores: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI
Resumen
Presentamos los Flavors of Moonshine, un conjunto de modelos pequeños de reconocimiento automático del habla (ASR, por sus siglas en inglés) especializados para una variedad de lenguas subrepresentadas. La sabiduría predominante sugiere que los modelos multilingües de ASR superan a sus contrapartes monolingües al aprovechar las similitudes fonéticas entre lenguas. Desafiamos esta suposición, demostrando que, para modelos suficientemente pequeños (27 millones de parámetros), el entrenamiento de sistemas monolingües con una mezcla cuidadosamente equilibrada de datos etiquetados por humanos de alta calidad, pseudoetiquetados y sintéticos produce un rendimiento sustancialmente superior. En promedio, nuestros modelos logran tasas de error un 48 % más bajas que el modelo Whisper Tiny de tamaño comparable, superan al modelo Whisper Small, que es 9 veces más grande, y, en la mayoría de los casos, igualan o superan al modelo Whisper Medium, que es 28 veces más grande. Estos resultados avanzan el estado del arte para modelos de este tamaño, permitiendo un ASR preciso en dispositivos para lenguas que anteriormente tenían un soporte limitado. Publicamos los modelos Moonshine para árabe, chino, japonés, coreano, ucraniano y vietnamita bajo una licencia de código abierto permisiva.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech
recognition (ASR) models specialized for a range of underrepresented languages.
Prevailing wisdom suggests that multilingual ASR models outperform monolingual
counterparts by exploiting cross-lingual phonetic similarities. We challenge
this assumption, showing that for sufficiently small models (27M parameters),
training monolingual systems on a carefully balanced mix of high-quality
human-labeled, pseudo-labeled, and synthetic data yields substantially superior
performance. On average, our models achieve error rates 48% lower than the
comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small
model, and in most cases match or outperform the 28x larger Whisper Medium
model. These results advance the state of the art for models of this size,
enabling accurate on-device ASR for languages that previously had limited
support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and
Vietnamese Moonshine models under a permissive open-source license.