Amélioration de la reconnaissance automatique de la parole kazakhe par l'utilisation de chansons
Using Songs to Improve Kazakh Automatic Speech Recognition
March 1, 2026
Auteurs: Rustem Yeshpanov
cs.AI
Résumé
Le développement de systèmes de reconnaissance automatique de la parole (ASR) pour les langues peu dotées est entravé par la rareté des corpus transcrits. Cette étude de preuve de concept explore les chansons comme source de données non conventionnelle mais prometteuse pour la RAP du kazakh. Nous constituons un jeu de données de 3 013 paires audio-texte (environ 4,5 heures) provenant de 195 chansons de 36 artistes, segmentées au niveau des lignes de paroles. En utilisant Whisper comme reconnaisseur de base, nous affinons des modèles selon sept scénarios d'entraînement impliquant les Chansons, le Common Voice Corpus (CVC) et FLEURS, et nous les évaluons sur trois benchmarks : CVC, FLEURS et le Kazakh Speech Corpus 2 (KSC2). Les résultats montrent que l'affinage basé sur les chansons améliore les performances par rapport aux modèles de base zero-shot. Par exemple, Whisper Large-V3 Turbo entraîné sur un mélange de Chansons, CVC et FLEURS atteint un WER normalisé de 27,6 % sur CVC et de 11,8 % sur FLEURS, tout en réduisant de moitié l'erreur sur KSC2 (39,3 % contre 81,2 %) par rapport au modèle zero-shot. Bien que ces gains restent inférieurs à ceux des modèles entraînés sur le corpus KSC2 de 1 100 heures, ils démontrent que même de modestes mélanges de chansons et de parole peuvent produire des améliorations d'adaptation significatives dans la RAP pour langues peu dotées. Le jeu de données est publié sur Hugging Face à des fins de recherche sous une licence contrôlée et non commerciale.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.