ChatPaper.aiChatPaper

Utilizzo di brani musicali per migliorare il riconoscimento automatico del parlato kazako

Using Songs to Improve Kazakh Automatic Speech Recognition

March 1, 2026
Autori: Rustem Yeshpanov
cs.AI

Abstract

Lo sviluppo di sistemi di riconoscimento vocale automatico (ASR) per lingue con risorse limitate è ostacolato dalla scarsità di corpora trascritti. Questo studio proof-of-concept esplora le canzoni come fonte di dati non convenzionale ma promettente per l'ASR del kazako. Abbiamo curato un dataset di 3.013 coppie audio-testo (circa 4,5 ore) provenienti da 195 canzoni di 36 artisti, segmentate a livello di riga del testo. Utilizzando Whisper come riconoscitore di base, addestriamo modelli in sette scenari di training che coinvolgono i dati delle Canzoni, il Common Voice Corpus (CVC) e FLEURS, e li valutiamo su tre benchmark: CVC, FLEURS e Kazakh Speech Corpus 2 (KSC2). I risultati mostrano che il fine-tuning basato sulle canzoni migliora le prestazioni rispetto ai baseline zero-shot. Ad esempio, Whisper Large-V3 Turbo addestrato su una miscela di Canzoni, CVC e FLEURS raggiunge un WER normalizzato del 27,6% su CVC e dell'11,8% su FLEURS, dimezzando l'errore su KSC2 (39,3% vs. 81,2%) rispetto al modello zero-shot. Sebbene questi miglioramenti rimangano al di sotto di quelli dei modelli addestrati sul corpus KSC2 da 1.100 ore, dimostrano che anche modeste miscele di canzoni e parlato possono produrre miglioramenti di adattamento significativi nell'ASR a basse risorse. Il dataset è rilasciato su Hugging Face per scopi di ricerca con una licenza contingentata e non commerciale.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.
PDF22March 19, 2026