카자흐어 자동 음성 인식 성능 향상을 위한 노래 활용
Using Songs to Improve Kazakh Automatic Speech Recognition
March 1, 2026
저자: Rustem Yeshpanov
cs.AI
초록
저자원 언어에 대한 자동 음성 인식(ASR) 시스템 개발은 전사 말뭉치의 부족으로 어려움을 겪고 있다. 본 개념 증명 연구는 카자흐어 ASR을 위한 비전통적이면서도 유망한 데이터 원천으로 노래의 활용 가능성을 탐구한다. 연구진은 36명의 아티스트가 부른 195곡에서 가사 행 단위로 분할된 3,013개의 오디오-텍스트 쌍(약 4.5시간 분량) 데이터세트를 구축했다. Whisper를 기본 인식기로 사용하여 노래(Songs), Common Voice Corpus(CVC), FLEURS를 포함한 7가지 훈련 시나리오 하에서 모델을 미세 조정하고, CVC, FLEURS, Kazakh Speech Corpus 2(KSC2) 등 3가지 벤치마크에서 성능을 평가했다. 결과에 따르면 노래 기반 미세 조정이 제로샷 기준선 대비 성능을 향상시킨다. 예를 들어, 노래, CVC, FLEURS 혼합 데이터로 훈련된 Whisper Large-V3 Turbo는 CVC에서 27.6%의 정규화 WER, FLEURS에서 11.8%의 WER을 달성했으며, KSC2에서는 제로샷 모델 대비 오류율을 절반으로 줄였다(39.3% vs. 81.2%). 이러한 성능 향상이 1,100시간 규모의 KSC2 말뭉치로 훈련된 모델의 성능에는 미치지 못하지만, 소규모의 노래-음성 혼합 데이터라도 저자원 ASR에서 의미 있는 적응 개선을 이끌어낼 수 있음을 보여준다. 해당 데이터세트는 허깅 페이스에 게이트 방식의 비상용 라이선스 하에 연구 목적으로 공개되었다.
English
Developing automatic speech recognition (ASR) systems for low-resource languages is hindered by the scarcity of transcribed corpora. This proof-of-concept study explores songs as an unconventional yet promising data source for Kazakh ASR. We curate a dataset of 3,013 audio-text pairs (about 4.5 hours) from 195 songs by 36 artists, segmented at the lyric-line level. Using Whisper as the base recogniser, we fine-tune models under seven training scenarios involving Songs, Common Voice Corpus (CVC), and FLEURS, and evaluate them on three benchmarks: CVC, FLEURS, and Kazakh Speech Corpus 2 (KSC2). Results show that song-based fine-tuning improves performance over zero-shot baselines. For instance, Whisper Large-V3 Turbo trained on a mixture of Songs, CVC, and FLEURS achieves 27.6% normalised WER on CVC and 11.8% on FLEURS, while halving the error on KSC2 (39.3% vs. 81.2%) relative to the zero-shot model. Although these gains remain below those of models trained on the 1,100-hour KSC2 corpus, they demonstrate that even modest song-speech mixtures can yield meaningful adaptation improvements in low-resource ASR. The dataset is released on Hugging Face for research purposes under a gated, non-commercial licence.