Naar echt meertalige ASR: het generaliseren van code-switching ASR naar ongeziene taalparen

Samenvatting

Automatische Spraakherkenning (ASR) is een sleuteltechnologie geworden voor mens-AI-interactie. Code-switching ASR (CS-ASR) blijft echter bijzonder uitdagend vanwege het ernstige gebrek aan meertalige CS-spraakbronnen voor diverse taalparen. Bestaande benaderingen verbeteren de CS-ASR-prestaties voornamelijk door synthetische CS-spraakgeneratie of paarspecifieke fine-tuning op beperkte tweetalige datasets. Desalniettemin hebben deze benaderingen een inherente schaalbaarheidsbeperking, omdat ondersteuning voor CS afzonderlijk moet worden ontwikkeld voor taalparen waarvan het aantal combinatorisch groeit met het aantal ondersteunde talen. In dit werk onderzoeken we of CS-capaciteiten die zijn geleerd van een beperkte set geziene taalparen kunnen generaliseren naar ongeziene taalparen via modelfusie en domeingeneralisatiemethoden. Onze experimenten tonen aan dat samengevoegde tweetalige CS-ASR-modellen bescheiden generaliseren naar ongeziene taalparen, wat wijst op een beperkte overdracht van tweetalige CS-capaciteiten tussen taalparen.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.