ChatPaper.aiChatPaper

Chemins dynamiques pour la reconnaissance automatique de la parole : une approche de masquage adaptatif pour un élagage efficace d'un modèle multilingue de reconnaissance automatique de la parole

Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient Pruning of A Multilingual ASR Model

September 22, 2023
Auteurs: Jiamin Xie, Ke Li, Jinxi Guo, Andros Tjandra, Yuan Shangguan, Leda Sari, Chunyang Wu, Junteng Jia, Jay Mahadeokar, Ozlem Kalinli
cs.AI

Résumé

L'élagage de réseaux neuronaux offre une méthode efficace pour compresser un modèle de reconnaissance automatique de la parole (ASR) multilingue avec une perte de performance minimale. Cependant, il nécessite plusieurs cycles d'élagage et de réentraînement pour chaque langue. Dans ce travail, nous proposons l'utilisation d'une approche de masquage adaptatif dans deux scénarios pour élaguer efficacement un modèle ASR multilingue, aboutissant soit à des modèles monolingues épars, soit à un modèle multilingue épars (nommé Dynamic ASR Pathways). Notre approche adapte dynamiquement le sous-réseau, évitant ainsi des décisions prématurées concernant une structure fixe de sous-réseau. Nous montrons que notre approche surpasse les méthodes d'élagage existantes lorsqu'il s'agit de cibler des modèles monolingues épars. De plus, nous démontrons que Dynamic ASR Pathways découvre et entraîne conjointement de meilleurs sous-réseaux (chemins) d'un modèle multilingue unique en s'adaptant à différentes initialisations de sous-réseaux, réduisant ainsi le besoin d'élagage spécifique à chaque langue.
English
Neural network pruning offers an effective method for compressing a multilingual automatic speech recognition (ASR) model with minimal performance loss. However, it entails several rounds of pruning and re-training needed to be run for each language. In this work, we propose the use of an adaptive masking approach in two scenarios for pruning a multilingual ASR model efficiently, each resulting in sparse monolingual models or a sparse multilingual model (named as Dynamic ASR Pathways). Our approach dynamically adapts the sub-network, avoiding premature decisions about a fixed sub-network structure. We show that our approach outperforms existing pruning methods when targeting sparse monolingual models. Further, we illustrate that Dynamic ASR Pathways jointly discovers and trains better sub-networks (pathways) of a single multilingual model by adapting from different sub-network initializations, thereby reducing the need for language-specific pruning.
PDF91December 15, 2024