Varianti di Moonshine: Piccoli Modelli ASR Specializzati per Dispositivi Edge
Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices
September 2, 2025
Autori: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI
Abstract
Presentiamo i Flavors of Moonshine, una suite di piccoli modelli di riconoscimento vocale automatico (ASR) specializzati per una gamma di lingue sottorappresentate. La saggezza prevalente suggerisce che i modelli ASR multilingue superino le controparti monolingue sfruttando le somiglianze fonetiche cross-linguistiche. Mettiamo in discussione questa ipotesi, dimostrando che per modelli sufficientemente piccoli (27 milioni di parametri), l'addestramento di sistemi monolingue su un mix bilanciato di dati di alta qualità etichettati manualmente, pseudo-etichettati e sintetici produce prestazioni sostanzialmente superiori. In media, i nostri modelli raggiungono tassi di errore inferiori del 48% rispetto al modello Whisper Tiny di dimensioni comparabili, superano il modello Whisper Small 9 volte più grande e, nella maggior parte dei casi, eguagliano o superano il modello Whisper Medium 28 volte più grande. Questi risultati avanzano lo stato dell'arte per modelli di queste dimensioni, consentendo un ASR accurato su dispositivo per lingue che in precedenza avevano un supporto limitato. Rilasciamo i modelli Moonshine per arabo, cinese, giapponese, coreano, ucraino e vietnamita sotto una licenza open-source permissiva.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech
recognition (ASR) models specialized for a range of underrepresented languages.
Prevailing wisdom suggests that multilingual ASR models outperform monolingual
counterparts by exploiting cross-lingual phonetic similarities. We challenge
this assumption, showing that for sufficiently small models (27M parameters),
training monolingual systems on a carefully balanced mix of high-quality
human-labeled, pseudo-labeled, and synthetic data yields substantially superior
performance. On average, our models achieve error rates 48% lower than the
comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small
model, and in most cases match or outperform the 28x larger Whisper Medium
model. These results advance the state of the art for models of this size,
enabling accurate on-device ASR for languages that previously had limited
support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and
Vietnamese Moonshine models under a permissive open-source license.