Auf dem Weg zu einer wirklich mehrsprachigen ASR: Generalisierung von Code-Switching-ASR auf ungesehene Sprachpaare

Zusammenfassung

Die Automatische Spracherkennung (ASR) hat sich zu einer Schlüsseltechnologie für die Mensch-KI-Interaktion entwickelt. Allerdings bleibt die Code-Switching-ASR (CS-ASR) besonders herausfordernd, da es an mehrsprachigen CS-Sprachressourcen für verschiedene Sprachpaare stark mangelt. Bisherige Ansätze verbessern die CS-ASR-Leistung hauptsächlich durch synthetische CS-Spracherzeugung oder paarspezifisches Feintuning auf begrenzten zweisprachigen Datensätzen. Dennoch stoßen diese Ansätze auf eine grundlegende Skalierbarkeitsgrenze, da die Unterstützung für CS für jedes Sprachpaar separat entwickelt werden muss, dessen Anzahl kombinatorisch mit der Anzahl unterstützter Sprachen wächst. In dieser Arbeit untersuchen wir, ob CS-Fähigkeiten, die aus einer begrenzten Menge gesehener Sprachpaare erlernt wurden, durch Modellzusammenführung und Domänengeneralisierungsmethoden auf ungesehene Sprachpaare übertragen werden können. Unsere Experimente zeigen, dass zusammengeführte zweisprachige CS-ASR-Modelle mäßig auf ungesehene Sprachpaare generalisieren, was auf eine begrenzte Übertragung zweisprachiger CS-Fähigkeiten zwischen Sprachpaaren hindeutet.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.