ChatPaper.aiChatPaper

Die Verwendung von Liedern zur Verbesserung der automatischen Spracherkennung für Kasachisch

Using Songs to Improve Kazakh Automatic Speech Recognition

March 1, 2026
Autoren: Rustem Yeshpanov
cs.AI

Zusammenfassung

Die Entwicklung automatischer Spracherkennungssysteme (ASR) für ressourcenschwache Sprachen wird durch den Mangel an transkribierten Korpora erschwert. Diese Machbarkeitsstudie untersucht Lieder als unkonventionelle, aber vielversprechende Datenquelle für die kasachische Spracherkennung. Wir erstellen einen Datensatz aus 3.013 Audio-Text-Paaren (etwa 4,5 Stunden) von 195 Liedern 36 verschiedener Künstler, die auf Lyrik-Zeilenebene segmentiert sind. Unter Verwendung von Whisper als Basis-Erkennungssystem feintunen wir Modelle in sieben Trainingsszenarien mit Liedern, dem Common Voice Corpus (CVC) und FLEURS und evaluieren sie anhand drei Benchmarks: CVC, FLEURS und dem Kazakh Speech Corpus 2 (KSC2). Die Ergebnisse zeigen, dass das Feintuning auf Lieddaten die Leistung im Vergleich zu Zero-Shot-Baselines verbessert. Beispielsweise erreicht Whisper Large-V3 Turbo, trainiert mit einer Mischung aus Liedern, CVC und FLEURS, eine normalisierte WER von 27,6 % auf CVC und 11,8 % auf FLEURS, während sich der Fehler auf KSC2 im Vergleich zum Zero-Shot-Modell halbiert (39,3 % vs. 81,2 %). Obwohl diese Verbesserungen hinter denen von Modellen zurückbleiben, die auf dem 1.100-Stunden-KSC2-Korpus trainiert wurden, demonstrieren sie, dass selbst bescheidene Lied-Sprach-Mischungen sinnvolle Anpassungsverbesserungen in der ressourcenschwachen Spracherkennung bewirken können. Der Datensatz wird zu Forschungszwecken unter einer eingeschränkten, nicht-kommerziellen Lizenz auf Hugging Face veröffentlicht.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.
PDF01March 4, 2026