Adaptation à faible rang pour le réétiquetage par modèle de langage à grande échelle dans la reconnaissance vocale à paramètres efficaces
Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
September 26, 2023
Auteurs: Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko
cs.AI
Résumé
Nous proposons un système de modélisation du langage neuronal basé sur l'adaptation de faible rang (LoRA) pour le réétiquetage des sorties de reconnaissance vocale. Bien que les modèles de langage pré-entraînés (LM) comme BERT aient démontré des performances supérieures dans le réétiquetage en deuxième passe, le coût computationnel élevé de la mise à l'échelle de la phase de pré-entraînement et de l'adaptation des modèles pré-entraînés à des domaines spécifiques limite leur utilisation pratique dans le réétiquetage. Nous présentons ici une méthode basée sur la décomposition de faible rang pour entraîner un modèle BERT de réétiquetage et l'adapter à de nouveaux domaines en utilisant seulement une fraction (0,08 %) des paramètres pré-entraînés. Ces matrices insérées sont optimisées via un objectif d'entraînement discriminatif ainsi qu'une fonction de régularisation basée sur la corrélation. L'architecture proposée de réétiquetage BERT par adaptation de faible rang (LoRB) est évaluée sur les ensembles de données LibriSpeech et internes, avec des temps d'entraînement réduits par des facteurs compris entre 5,4 et 3,6.
English
We propose a neural language modeling system based on low-rank adaptation
(LoRA) for speech recognition output rescoring. Although pretrained language
models (LMs) like BERT have shown superior performance in second-pass
rescoring, the high computational cost of scaling up the pretraining stage and
adapting the pretrained models to specific domains limit their practical use in
rescoring. Here we present a method based on low-rank decomposition to train a
rescoring BERT model and adapt it to new domains using only a fraction (0.08%)
of the pretrained parameters. These inserted matrices are optimized through a
discriminative training objective along with a correlation-based regularization
loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is
evaluated on LibriSpeech and internal datasets with decreased training times by
factors between 5.4 and 3.6.