Utilização de Canções para Melhorar o Reconhecimento Automático de Fala do Cazaque
Using Songs to Improve Kazakh Automatic Speech Recognition
March 1, 2026
Autores: Rustem Yeshpanov
cs.AI
Resumo
O desenvolvimento de sistemas de reconhecimento automático de fala (ASR) para idiomas com poucos recursos é dificultado pela escassez de corpora transcritos. Este estudo de prova de conceito explora as músicas como uma fonte de dados não convencional, mas promissora, para ASR do cazaque. Organizamos um conjunto de dados de 3.013 pares áudio-texto (cerca de 4,5 horas) de 195 músicas de 36 artistas, segmentados ao nível da linha de letra. Usando o Whisper como reconhecedor base, afinamos modelos em sete cenários de treino envolvendo Músicas, o Common Voice Corpus (CVC) e o FLEURS, e avaliamo-los em três benchmarks: CVC, FLEURS e o Kazakh Speech Corpus 2 (KSC2). Os resultados mostram que o afinação baseada em músicas melhora o desempenho em comparação com as linhas de base *zero-shot*. Por exemplo, o Whisper Large-V3 Turbo treinado numa mistura de Músicas, CVC e FLEURS atinge 27,6% de WER normalizado no CVC e 11,8% no FLEURS, enquanto reduz para metade o erro no KSC2 (39,3% vs. 81,2%) em relação ao modelo *zero-shot*. Embora estes ganhos permaneçam abaixo dos obtidos por modelos treinados no corpus KSC2 de 1.100 horas, eles demonstram que mesmo misturas modestas de música e fala podem produzir melhorias de adaptação significativas em ASR de baixos recursos. O conjunto de dados é disponibilizado no Hugging Face para fins de investigação sob uma licença condicionada e não comercial.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.