ChatPaper.aiChatPaper

Использование песен для улучшения казахского автоматического распознавания речи

Using Songs to Improve Kazakh Automatic Speech Recognition

March 1, 2026
Авторы: Rustem Yeshpanov
cs.AI

Аннотация

Разработка систем автоматического распознавания речи (АРР) для языков с ограниченными ресурсами затруднена из-за нехватки размеченных корпусов. В данном исследовании, носящем доказательный характер, песни рассматриваются как нетрадиционный, но перспективный источник данных для казахской АРР. Мы подготовили набор данных, состоящий из 3013 аудио-текстовых пар (около 4,5 часов) из 195 песен 36 исполнителей, сегментированных на уровне строк текста. Используя Whisper в качестве базового распознавателя, мы дообучаем модели в семи сценариях с использованием данных из песен (Songs), Common Voice Corpus (CVC) и FLEURS, и оцениваем их на трех тестовых наборах: CVC, FLEURS и Kazakh Speech Corpus 2 (KSC2). Результаты показывают, что дообучение на песнях улучшает производительность по сравнению с базовыми моделями без дообучения (zero-shot). Например, Whisper Large-V3 Turbo, дообученная на смеси данных из Songs, CVC и FLEURS, достигает нормализованной WER 27,6% на CVC и 11,8% на FLEURS, одновременно уменьшая ошибку на KSC2 вдвое (39,3% против 81,2%) по сравнению с zero-shot моделью. Хотя эти улучшения остаются ниже результатов моделей, обученных на 1100-часовом корпусе KSC2, они демонстрируют, что даже небольшие смеси песенных и речевых данных могут привести к значительной адаптации в условиях ограниченных ресурсов для АРР. Набор данных опубликован на Hugging Face для исследовательских целей под ограничительной некоммерческой лицензией.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.
PDF01March 4, 2026