真の多言語ASRを目指して: コードスイッチングASRの未見の言語ペアへの一般化

要旨

自動音声認識（ASR）は、人間とAIのインタラクションにおける重要な技術となっている。しかし、コードスイッチングASR（CS-ASR）は、多様な言語ペア間での多言語CS音声リソースの深刻な不足により、特に困難な課題である。既存のアプローチは主に、合成CS音声生成や限られたバイリンガルデータセットに対するペア固有の微調整によってCS-ASR性能を向上させる。しかし、これらのアプローチは本質的にスケーラビリティの制限を抱えており、CSのサポートは、サポートする言語数の増加に伴って組み合わせ的に増加する言語ペアごとに個別に開発しなければならない。本研究では、限られたセットの観測言語ペアから学習されたCS能力が、モデルマージやドメイン汎化手法を通じて未観測の言語ペアに汎化できるかどうかを調査する。実験の結果、マージされたバイリンガルCS-ASRモデルは未観測の言語ペアに対して限定的に汎化し、バイリンガルCS能力の言語ペア間での転移が限られていることが示唆された。

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.