Whisper-LM: Verbesserung von ASR-Modellen mit Sprachmodellen für ressourcenarme Sprachen
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages
March 30, 2025
Autoren: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI
Zusammenfassung
Automatische Spracherkennungssysteme haben zweifellos Fortschritte durch die Integration von mehrsprachigen und multitask-Modellen wie Whisper gemacht, die eine vielversprechende Fähigkeit gezeigt haben, Sprache über eine breite Palette von Sprachen hinweg zu verstehen und zu verarbeiten. Trotz ihrer Robustheit scheitern diese Modelle oft daran, die linguistischen Besonderheiten von Minderheitensprachen zu bewältigen. Diese Studie schließt diese Lücke, indem sie traditionelle und neuartige Sprachmodelle mit feinabgestimmten Whisper-Modellen kombiniert, um deren Leistung in weniger häufig untersuchten Sprachen zu steigern. Durch rigorose Feinabstimmung und Bewertung über mehrere Datensätze hinweg zeigen wir erhebliche Verbesserungen der Wortfehlerrate, insbesondere in ressourcenarmen Szenarien. Unser Ansatz nutzt nicht nur die umfangreichen Daten, auf denen Whisper vortrainiert wurde, sondern ergänzt auch dessen linguistische Anpassungsfähigkeit durch die Einbindung von Sprachmodellen. Wir erzielten Verbesserungen von bis zu 51\% für In-Distribution-Datensätze und bis zu 34\% für Out-of-Distribution-Sätze unter Verwendung statistischer Sprachmodelle, während große Sprachmodelle moderate, aber durchweg robuste Verbesserungen über verschiedene linguistische Kontexte hinweg lieferten. Die Ergebnisse zeigen, dass die Integration zwar zuverlässig alle Modellgrößen begünstigt, das Ausmaß der Verbesserung jedoch variiert, was die Bedeutung optimierter Sprachmodellparameter unterstreicht. Schließlich betonen wir die Bedeutung der Auswahl geeigneter Bewertungsparameter bei der Berichterstattung von Ergebnissen mit transformerbasierten ASR-Modellen. Zusammenfassend ebnet diese Forschung den Weg für inklusivere ASR-Technologien, die durch die Bereicherung ihres linguistischen Wissens besser über verschiedene Sprachen hinweg abschneiden. Für weitere Implementierungsdetails dieser Studie sind die technische Dokumentation und der Quellcode unter http://www.github.com/hitz-zentroa/whisper-lm verfügbar.
English
Automatic speech recognition systems have undoubtedly advanced with the
integration of multilingual and multitask models such as Whisper, which have
shown a promising ability to understand and process speech across a wide range
of languages. Despite their robustness, these models often fall short in
handling the linguistic distinctions of minority languages. This study
addresses this gap by integrating traditional and novel language models with
fine-tuned Whisper models to raise their performance in less commonly studied
languages. Through rigorous fine-tuning and evaluation across multiple
datasets, we demonstrate substantial improvements in word error rate,
particularly in low-resource scenarios. Our approach not only does take
advantage of the extensive data Whisper was pre-trained on, but also
complements its linguistic adaptability by incorporating language models. We
obtained improvements up to 51\% for in-distribution datasets and up to 34\%
for out-of-distribution sentences using statistical language models, while
large language models provided moderate but consistently robust improvement
across diverse linguistic contexts. The findings reveal that, while the
integration reliably benefits all model sizes, the extent of improvement
varies, highlighting the importance of optimized language model parameters.
Finally, we emphasize the importance of selecting appropriate evaluation
parameters when reporting the results using transformer-based ASR models. In
summary, this research clears the way for more inclusive ASR technologies that
perform better across languages by enriching their linguistic knowledge. For
further implementation details of this study, the technical documentation and
source code are available at http://www.github.com/hitz-zentroa/whisper-lm.