К по-настоящему многоязычному ASR: обобщение ASR с переключением языковых кодов на неизвестные языковые пары

Аннотация

Автоматическое распознавание речи (ASR) стало ключевой технологией взаимодействия человека и искусственного интеллекта. Однако ASR с переключением кодов (CS-ASR) остается особенно сложной задачей из-за острой нехватки многоязычных речевых ресурсов с переключением кодов для различных языковых пар. Существующие подходы в основном улучшают производительность CS-ASR за счет синтезированной речи с переключением кодов или тонкой настройки для конкретных пар на ограниченных двуязычных наборах данных. Тем не менее, эти подходы сталкиваются с внутренним ограничением масштабируемости, поскольку поддержка переключения кодов должна разрабатываться отдельно для каждой языковой пары, число которых растет комбинаторно с увеличением количества поддерживаемых языков. В данной работе мы исследуем, могут ли способности к переключению кодов, полученные на ограниченном наборе наблюдаемых языковых пар, быть обобщены на ненаблюдаемые пары с помощью методов слияния моделей и обобщения доменов. Наши эксперименты показывают, что объединенные двуязычные модели CS-ASR в умеренной степени обобщаются на ненаблюдаемые языковые пары, что указывает на ограниченный перенос двуязычных способностей к переключению кодов между языковыми парами.

English

Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switching ASR (CS-ASR) remains particularly challenging due to the severe scarcity of multilingual CS speech resources across diverse language pairs. Existing approaches primarily improve CS-ASR performance through synthetic CS speech generation or pair-specific fine-tuning on limited bilingual datasets. Nevertheless, these approaches face an inherent scalability limitation, as support for CS must be developed separately for language pairs whose number grows combinatorially with the number of supported languages. In this work, we investigate whether CS capabilities learned from a limited set of seen language pairs can generalize to unseen language pairs through model merging and domain generalization methods. Our experiments show that merged bilingual CS-ASR models modestly generalize to unseen language pairs, suggesting limited transfer of bilingual CS capabilities across language pairs.