Vers un ASR véritablement multilingue : généraliser l'ASR avec alternance codique à des paires de langues non vues

Résumé

La reconnaissance automatique de la parole (ASR) est devenue une technologie clé pour l'interaction humain-IA. Cependant, l'ASR avec alternance codique (CS-ASR) reste particulièrement difficile en raison de la grave pénurie de ressources vocales multilingues en alternance codique pour diverses paires de langues. Les approches existantes améliorent principalement les performances du CS-ASR via la génération synthétique de parole en alternance codique ou un réglage fin spécifique à chaque paire sur des ensembles de données bilingues limités. Néanmoins, ces approches sont confrontées à une limitation inhérente de scalabilité, car le support de l'alternance codique doit être développé séparément pour chaque paire de langues, dont le nombre croît de manière combinatoire avec le nombre de langues supportées. Dans ce travail, nous étudions si les capacités d'alternance codique apprises à partir d'un ensemble limité de paires de langues observées peuvent se généraliser à des paires de langues non observées par des méthodes de fusion de modèles et de généralisation de domaine. Nos expériences montrent que les modèles CS-ASR bilingues fusionnés se généralisent modestement à des paires de langues non observées, ce qui suggère un transfert limité des capacités d'alternance codique bilingue entre différentes paires de langues.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.