Hacia un ASR verdaderamente multilingüe: generalizando el ASR de cambio de código a pares de lenguas no vistos

Resumen

El reconocimiento automático del habla (ASR) se ha convertido en una tecnología clave para la interacción humano-inteligencia artificial. Sin embargo, el ASR con cambio de código (CS-ASR) sigue siendo particularmente desafiante debido a la grave escasez de recursos de habla multilingüe con cambio de código en diversos pares de idiomas. Los enfoques existentes mejoran principalmente el rendimiento del CS-ASR mediante la generación sintética de habla con cambio de código o el ajuste fino específico de pares en conjuntos de datos bilingües limitados. No obstante, estos enfoques enfrentan una limitación inherente de escalabilidad, ya que el soporte para el cambio de código debe desarrollarse por separado para pares de idiomas cuyo número crece de manera combinatoria con la cantidad de idiomas admitidos. En este trabajo, investigamos si las capacidades de cambio de código aprendidas a partir de un conjunto limitado de pares de idiomas observados pueden generalizarse a pares de idiomas no vistos mediante métodos de fusión de modelos y generalización de dominio. Nuestros experimentos muestran que los modelos bilingües fusionados de CS-ASR se generalizan de manera modesta a pares de idiomas no vistos, lo que sugiere una transferencia limitada de las capacidades bilingües de cambio de código entre pares de idiomas.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.