진정한 다국어 ASR을 향하여: 코드 스위칭 ASR을 미경험 언어 쌍으로 일반화하기

초록

자동 음성 인식(ASR)은 인간-AI 상호작용의 핵심 기술이 되었다. 그러나 코드 스위칭 ASR(CS-ASR)은 다양한 언어 쌍에 걸친 다국어 CS 음성 자원의 심각한 부족으로 인해 여전히 특히 어려운 과제로 남아 있다. 기존 접근법은 주로 합성 CS 음성 생성 또는 제한된 이중 언어 데이터셋에 대한 쌍별 미세 조정을 통해 CS-ASR 성능을 개선한다. 그럼에도 불구하고 이러한 접근법은 본질적인 확장성 한계에 직면한다. CS 지원은 지원 언어 수에 따라 조합적으로 증가하는 언어 쌍에 대해 개별적으로 개발되어야 하기 때문이다. 본 연구에서는 제한된 수의 관찰된 언어 쌍에서 학습된 CS 능력이 모델 병합 및 도메인 일반화 방법을 통해 관찰되지 않은 언어 쌍으로 일반화될 수 있는지 조사한다. 실험 결과, 병합된 이중 언어 CS-ASR 모델은 관찰되지 않은 언어 쌍에 대해 어느 정도 일반화되지만, 이는 언어 쌍 간 이중 언어 CS 능력의 전이가 제한적임을 시사한다.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.