ChatPaper.aiChatPaper

Whisper-LM: 저자원 언어를 위한 언어 모델을 활용한 음성 인식 모델 개선

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

March 30, 2025
저자: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI

초록

자동 음성 인식 시스템은 Whisper와 같은 다국어 및 다중 작업 모델의 통합으로 인해 의심할 여지 없이 발전해 왔으며, 이는 광범위한 언어에 걸쳐 음성을 이해하고 처리하는 유망한 능력을 보여주었습니다. 그러나 이러한 모델들은 소수 언어의 언어적 차이를 다루는 데 있어서 종종 부족함을 보입니다. 본 연구는 이러한 격차를 해소하기 위해 전통적이고 새로운 언어 모델을 미세 조정된 Whisper 모델과 통합하여 덜 연구된 언어에서의 성능을 향상시키는 방법을 제시합니다. 여러 데이터셋에 걸친 엄격한 미세 조정과 평가를 통해, 특히 저자원 시나리오에서 단어 오류율의 상당한 개선을 입증합니다. 우리의 접근 방식은 Whisper가 사전 학습한 방대한 데이터를 활용할 뿐만 아니라, 언어 모델을 통합함으로써 언어적 적응성을 보완합니다. 통계적 언어 모델을 사용하여 내부 분포 데이터셋에서 최대 51%, 외부 분포 문장에서 최대 34%의 개선을 얻었으며, 대형 언어 모델은 다양한 언어적 맥락에서 중간이지만 꾸준히 견고한 개선을 제공했습니다. 연구 결과는 통합이 모든 모델 크기에 안정적으로 이점을 제공하지만, 개선의 정도는 다양하며, 이는 최적화된 언어 모델 매개변수의 중요성을 강조합니다. 마지막으로, 트랜스포머 기반 ASR 모델을 사용하여 결과를 보고할 때 적절한 평가 매개변수를 선택하는 것의 중요성을 강조합니다. 요약하면, 이 연구는 언어적 지식을 풍부하게 함으로써 더 포괄적인 ASR 기술의 길을 열어, 다양한 언어에서 더 나은 성능을 발휘할 수 있도록 합니다. 본 연구의 추가 구현 세부 사항에 대해서는 기술 문서와 소스 코드가 http://www.github.com/hitz-zentroa/whisper-lm에서 제공됩니다.
English
Automatic speech recognition systems have undoubtedly advanced with the integration of multilingual and multitask models such as Whisper, which have shown a promising ability to understand and process speech across a wide range of languages. Despite their robustness, these models often fall short in handling the linguistic distinctions of minority languages. This study addresses this gap by integrating traditional and novel language models with fine-tuned Whisper models to raise their performance in less commonly studied languages. Through rigorous fine-tuning and evaluation across multiple datasets, we demonstrate substantial improvements in word error rate, particularly in low-resource scenarios. Our approach not only does take advantage of the extensive data Whisper was pre-trained on, but also complements its linguistic adaptability by incorporating language models. We obtained improvements up to 51\% for in-distribution datasets and up to 34\% for out-of-distribution sentences using statistical language models, while large language models provided moderate but consistently robust improvement across diverse linguistic contexts. The findings reveal that, while the integration reliably benefits all model sizes, the extent of improvement varies, highlighting the importance of optimized language model parameters. Finally, we emphasize the importance of selecting appropriate evaluation parameters when reporting the results using transformer-based ASR models. In summary, this research clears the way for more inclusive ASR technologies that perform better across languages by enriching their linguistic knowledge. For further implementation details of this study, the technical documentation and source code are available at http://www.github.com/hitz-zentroa/whisper-lm.

Summary

AI-Generated Summary

PDF103April 4, 2025