Soorten Moonshine: Kleine Gespecialiseerde ASR-modellen voor Edge-apparaten

Samenvatting

We presenteren de Flavors of Moonshine, een reeks kleine automatische spraakherkenning (ASR) modellen die gespecialiseerd zijn in een reeks ondervertegenwoordigde talen. De heersende opvatting suggereert dat meertalige ASR-modellen beter presteren dan eentalige tegenhangers door het benutten van cross-linguale fonetische overeenkomsten. We dagen deze aanname uit en tonen aan dat voor voldoende kleine modellen (27M parameters), het trainen van eentalige systemen op een zorgvuldig uitgebalanceerde mix van hoogwaardige door mensen gelabelde, pseudo-gelabelde en synthetische data aanzienlijk betere prestaties oplevert. Gemiddeld behalen onze modellen foutpercentages die 48% lager zijn dan het vergelijkbaar grote Whisper Tiny-model, presteren ze beter dan het 9x grotere Whisper Small-model, en in de meeste gevallen evenaren of overtreffen ze het 28x grotere Whisper Medium-model. Deze resultaten zetten de standaard voor modellen van deze omvang, waardoor nauwkeurige on-device ASR mogelijk wordt voor talen die voorheen beperkte ondersteuning hadden. We brengen Arabische, Chinese, Japanse, Koreaanse, Oekraïense en Vietnamese Moonshine-modellen uit onder een permissieve open-source licentie.

English

We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and synthetic data yields substantially superior performance. On average, our models achieve error rates 48% lower than the comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small model, and in most cases match or outperform the 28x larger Whisper Medium model. These results advance the state of the art for models of this size, enabling accurate on-device ASR for languages that previously had limited support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and Vietnamese Moonshine models under a permissive open-source license.

Soorten Moonshine: Kleine Gespecialiseerde ASR-modellen voor Edge-apparaten

Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

Samenvatting

Support