ChatPaper.aiChatPaper

Uso de Canciones para Mejorar el Reconocimiento Automático del Habla en Kazajo

Using Songs to Improve Kazakh Automatic Speech Recognition

March 1, 2026
Autores: Rustem Yeshpanov
cs.AI

Resumen

El desarrollo de sistemas de reconocimiento automático del habla (ASR) para lenguas de bajos recursos se ve obstaculizado por la escasez de corpus transcritos. Este estudio de prueba de concepto explora las canciones como una fuente de datos no convencional pero prometedora para el ASR del kazajo. Curramos un conjunto de datos de 3.013 pares audio-texto (aproximadamente 4,5 horas) de 195 canciones de 36 artistas, segmentadas a nivel de línea de letra. Utilizando Whisper como reconocedor base, afinamos modelos bajo siete escenarios de entrenamiento que involucran Canciones, Common Voice Corpus (CVC) y FLEURS, y los evaluamos en tres benchmarks: CVC, FLEURS y Kazakh Speech Corpus 2 (KSC2). Los resultados muestran que el ajuste fino basado en canciones mejora el rendimiento respecto a los baselines *zero-shot*. Por ejemplo, Whisper Large-V3 Turbo entrenado con una mezcla de Canciones, CVC y FLEURS logra un WER normalizado del 27,6% en CVC y del 11,8% en FLEURS, mientras que reduce a la mitad el error en KSC2 (39,3% frente a 81,2%) en comparación con el modelo *zero-shot*. Aunque estas mejoras se mantienen por debajo de las de los modelos entrenados con el corpus de 1.100 horas de KSC2, demuestran que incluso mezclas modestas de canciones y habla pueden producir mejoras de adaptación significativas en ASR de bajos recursos. El conjunto de datos se publica en Hugging Face con fines de investigación bajo una licencia restringida y no comercial.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.
PDF01March 4, 2026