ChatPaper.aiChatPaper

Aromen des Moonshine: Winzige spezialisierte ASR-Modelle für Edge-Geräte

Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

September 2, 2025
papers.authors: Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden
cs.AI

papers.abstract

Wir präsentieren die Flavors of Moonshine, eine Sammlung kleiner automatischer Spracherkennungsmodelle (ASR), die speziell für eine Reihe von unterrepräsentierten Sprachen entwickelt wurden. Die vorherrschende Meinung besagt, dass mehrsprachige ASR-Modelle monolinguale Modelle übertreffen, indem sie phonetische Ähnlichkeiten zwischen Sprachen nutzen. Wir stellen diese Annahme in Frage und zeigen, dass für hinreichend kleine Modelle (27M Parameter) das Training monolingualer Systeme auf einer sorgfältig ausbalancierten Mischung aus hochwertigen, von Menschen annotierten, pseudo-annotierten und synthetischen Daten eine deutlich überlegene Leistung erzielt. Im Durchschnitt erreichen unsere Modelle Fehlerraten, die 48 % niedriger sind als die des vergleichbar großen Whisper Tiny-Modells, übertreffen das 9-mal größere Whisper Small-Modell und erreichen in den meisten Fällen die Leistung des 28-mal größeren Whisper Medium-Modells oder übertreffen sie. Diese Ergebnisse setzen neue Maßstäbe für Modelle dieser Größe und ermöglichen eine präzise Spracherkennung auf Endgeräten für Sprachen, die bisher nur begrenzt unterstützt wurden. Wir veröffentlichen die Moonshine-Modelle für Arabisch, Chinesisch, Japanisch, Koreanisch, Ukrainisch und Vietnamesisch unter einer freizügigen Open-Source-Lizenz.
English
We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and synthetic data yields substantially superior performance. On average, our models achieve error rates 48% lower than the comparably sized Whisper Tiny model, outperform the 9x larger Whisper Small model, and in most cases match or outperform the 28x larger Whisper Medium model. These results advance the state of the art for models of this size, enabling accurate on-device ASR for languages that previously had limited support. We release Arabic, Chinese, Japanese, Korean, Ukrainian, and Vietnamese Moonshine models under a permissive open-source license.
PDF21September 3, 2025