ChatPaper.aiChatPaper

Saveurs de Moonshine : Petits modèles ASR spécialisés pour les appareils périphériques

Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

September 2, 2025
papers.authors: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI

papers.abstract

Nous présentons les Flavors of Moonshine, une suite de modèles de reconnaissance automatique de la parole (ASR) de petite taille spécialisés pour une gamme de langues sous-représentées. La sagesse conventionnelle suggère que les modèles ASR multilingues surpassent leurs homologues monolingues en exploitant les similarités phonétiques interlangues. Nous remettons en question cette hypothèse, en démontrant que pour des modèles suffisamment petits (27 millions de paramètres), l’entraînement de systèmes monolingues sur un mélange soigneusement équilibré de données de haute qualité annotées manuellement, pseudo-annotées et synthétiques permet d’obtenir des performances nettement supérieures. En moyenne, nos modèles atteignent des taux d’erreur 48 % inférieurs à ceux du modèle Whisper Tiny de taille comparable, surpassent le modèle Whisper Small, 9 fois plus grand, et dans la plupart des cas égalent ou surpassent le modèle Whisper Medium, 28 fois plus grand. Ces résultats font progresser l’état de l’art pour des modèles de cette taille, permettant une reconnaissance automatique de la parole précise sur appareil pour des langues qui bénéficiaient auparavant d’un support limité. Nous publions les modèles Moonshine pour l’arabe, le chinois, le japonais, le coréen, l’ukrainien et le vietnamien sous une licence open-source permissive.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and synthetic data yields substantially superior performance. On average, our models achieve error rates 48% lower than the comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small model, and in most cases match or outperform the 28x larger Whisper Medium model. These results advance the state of the art for models of this size, enabling accurate on-device ASR for languages that previously had limited support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and Vietnamese Moonshine models under a permissive open-source license.
PDF21September 3, 2025