Rumo ao ASR Verdadeiramente Multilíngue: Generalizando o ASR com Alternância de Código para Pares de Idiomas Não Vistos

Resumo

O Reconhecimento Automático de Fala (ASR) tornou-se uma tecnologia fundamental para a interação humano-IA. No entanto, o ASR com alternância de código (CS-ASR) continua particularmente desafiador devido à severa escassez de recursos de fala multilíngues com alternância de código entre diversos pares de idiomas. As abordagens existentes melhoram principalmente o desempenho do CS-ASR por meio da geração sintética de fala com alternância de código ou do ajuste fino específico para pares de idiomas em conjuntos de dados bilíngues limitados. No entanto, essas abordagens enfrentam uma limitação inerente de escalabilidade, pois o suporte para alternância de código deve ser desenvolvido separadamente para pares de idiomas, cujo número cresce de forma combinatória com a quantidade de idiomas suportados. Neste trabalho, investigamos se as capacidades de alternância de código aprendidas a partir de um conjunto limitado de pares de idiomas observados podem ser generalizadas para pares de idiomas não observados por meio de métodos de fusão de modelos e generalização de domínio. Nossos experimentos mostram que modelos bilíngues de CS-ASR fundidos generalizam-se modestamente para pares de idiomas não observados, sugerindo uma transferência limitada de capacidades bilíngues de alternância de código entre pares de idiomas.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.