Adattamento a Basso Rango per il Riscoring di Modelli Linguistici di Grandi Dimensioni nel Riconoscimento Vocale con Efficienza Parametrica
Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
September 26, 2023
Autori: Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko
cs.AI
Abstract
Proponiamo un sistema di modellazione del linguaggio neurale basato sull'adattamento a basso rango (LoRA) per il riordinamento dell'output del riconoscimento vocale. Sebbene i modelli di linguaggio preaddestrati (LM) come BERT abbiano dimostrato prestazioni superiori nel riordinamento di seconda passata, l'elevato costo computazionale per scalare la fase di preaddestramento e adattare i modelli preaddestrati a domini specifici ne limita l'uso pratico nel riordinamento. Qui presentiamo un metodo basato sulla decomposizione a basso rango per addestrare un modello BERT di riordinamento e adattarlo a nuovi domini utilizzando solo una frazione (0,08%) dei parametri preaddestrati. Queste matrici inserite vengono ottimizzate attraverso un obiettivo di addestramento discriminativo insieme a una funzione di perdita di regolarizzazione basata sulla correlazione. L'architettura proposta di Rescore-BERT con adattamento a basso rango (LoRB) viene valutata su dataset LibriSpeech e interni, con tempi di addestramento ridotti di fattori compresi tra 5,4 e 3,6.
English
We propose a neural language modeling system based on low-rank adaptation
(LoRA) for speech recognition output rescoring. Although pretrained language
models (LMs) like BERT have shown superior performance in second-pass
rescoring, the high computational cost of scaling up the pretraining stage and
adapting the pretrained models to specific domains limit their practical use in
rescoring. Here we present a method based on low-rank decomposition to train a
rescoring BERT model and adapt it to new domains using only a fraction (0.08%)
of the pretrained parameters. These inserted matrices are optimized through a
discriminative training objective along with a correlation-based regularization
loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is
evaluated on LibriSpeech and internal datasets with decreased training times by
factors between 5.4 and 3.6.