Soorten Moonshine: Kleine Gespecialiseerde ASR-modellen voor Edge-apparaten
Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
September 2, 2025
Auteurs: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI
Samenvatting
We presenteren de Flavors of Moonshine, een reeks kleine automatische spraakherkenning (ASR) modellen die gespecialiseerd zijn in een reeks ondervertegenwoordigde talen. De heersende opvatting suggereert dat meertalige ASR-modellen beter presteren dan eentalige tegenhangers door het benutten van cross-linguale fonetische overeenkomsten. We dagen deze aanname uit en tonen aan dat voor voldoende kleine modellen (27M parameters), het trainen van eentalige systemen op een zorgvuldig uitgebalanceerde mix van hoogwaardige door mensen gelabelde, pseudo-gelabelde en synthetische data aanzienlijk betere prestaties oplevert. Gemiddeld behalen onze modellen foutpercentages die 48% lager zijn dan het vergelijkbaar grote Whisper Tiny-model, presteren ze beter dan het 9x grotere Whisper Small-model, en in de meeste gevallen evenaren of overtreffen ze het 28x grotere Whisper Medium-model. Deze resultaten zetten de standaard voor modellen van deze omvang, waardoor nauwkeurige on-device ASR mogelijk wordt voor talen die voorheen beperkte ondersteuning hadden. We brengen Arabische, Chinese, Japanse, Koreaanse, Oekraïense en Vietnamese Moonshine-modellen uit onder een permissieve open-source licentie.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech
recognition (ASR) models specialized for a range of underrepresented languages.
Prevailing wisdom suggests that multilingual ASR models outperform monolingual
counterparts by exploiting cross-lingual phonetic similarities. We challenge
this assumption, showing that for sufficiently small models (27M parameters),
training monolingual systems on a carefully balanced mix of high-quality
human-labeled, pseudo-labeled, and synthetic data yields substantially superior
performance. On average, our models achieve error rates 48% lower than the
comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small
model, and in most cases match or outperform the 28x larger Whisper Medium
model. These results advance the state of the art for models of this size,
enabling accurate on-device ASR for languages that previously had limited
support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and
Vietnamese Moonshine models under a permissive open-source license.