Liederen Gebruiken om Kazachse Automatische Spraakherkenning te Verbeteren
Using Songs to Improve Kazakh Automatic Speech Recognition
March 1, 2026
Auteurs: Rustem Yeshpanov
cs.AI
Samenvatting
De ontwikkeling van automatische spraakherkenningssystemen (ASR) voor talen met weinig bronnen wordt belemmerd door de schaarste aan getranscribeerde corpora. Deze proof-of-concept studie onderzoekt liedjes als een onconventionele maar veelbelovende gegevensbron voor Kazachse ASR. Wij stellen een dataset samen van 3.013 audio-tekst paren (ongeveer 4,5 uur) afkomstig van 195 liedjes van 36 artiesten, gesegmenteerd op tekstregelniveau. Met Whisper als basisherkenner fine-tunen we modellen onder zeven trainingsscenario's waarbij Liedjes, het Common Voice Corpus (CVC) en FLEURS worden gebruikt, en evalueren we deze op drie benchmarks: CVC, FLEURS en het Kazakh Speech Corpus 2 (KSC2). Resultaten tonen aan dat fine-tuning op basis van liedjes de prestaties verbetert in vergelijking met zero-shot uitgangspunten. Whisper Large-V3 Turbo, getraind op een mix van Liedjes, CVC en FLEURS, behaalt bijvoorbeeld een genormaliseerde WER van 27,6% op CVC en 11,8% op FLEURS, terwijl de fout op KSC2 wordt gehalveerd (39,3% versus 81,2%) ten opzichte van het zero-shot model. Hoewel deze verbeteringen achterblijven bij die van modellen die op het 1.100-uur durende KSC2-corpus zijn getraind, tonen ze aan dat zelfs bescheiden mengsels van liedjes en spraak zinvolle aanpassingsverbeteringen kunnen opleveren bij ASR met weinig bronnen. De dataset is vrijgegeven op Hugging Face voor onderzoeksdoeleinden onder een beperkte, niet-commerciële licentie.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.