Niedrigrangige Anpassung von Large Language Model Rescoring für parameter-effiziente Spracherkennung
Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
September 26, 2023
Autoren: Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko
cs.AI
Zusammenfassung
Wir schlagen ein neuronales Sprachmodellierungssystem vor, das auf Low-Rank-Adaptation (LoRA) für die Neubewertung von Spracherkennungsausgaben basiert. Obwohl vortrainierte Sprachmodelle (LMs) wie BERT eine überlegene Leistung bei der Neubewertung in der zweiten Phase gezeigt haben, begrenzen die hohen Rechenkosten bei der Skalierung des Vortrainings und der Anpassung der vortrainierten Modelle an spezifische Domänen deren praktischen Einsatz in der Neubewertung. Hier präsentieren wir eine Methode, die auf einer Low-Rank-Zerlegung basiert, um ein BERT-Modell für die Neubewertung zu trainieren und es mit nur einem Bruchteil (0,08 %) der vortrainierten Parameter an neue Domänen anzupassen. Diese eingefügten Matrizen werden durch ein diskriminatives Trainingsziel zusammen mit einem korrelationsbasierten Regularisierungsverlust optimiert. Die vorgeschlagene Low-Rank-Adaptation Rescore-BERT (LoRB)-Architektur wird auf LibriSpeech und internen Datensätzen evaluiert, wobei die Trainingszeiten um Faktoren zwischen 5,4 und 3,6 reduziert werden.
English
We propose a neural language modeling system based on low-rank adaptation
(LoRA) for speech recognition output rescoring. Although pretrained language
models (LMs) like BERT have shown superior performance in second-pass
rescoring, the high computational cost of scaling up the pretraining stage and
adapting the pretrained models to specific domains limit their practical use in
rescoring. Here we present a method based on low-rank decomposition to train a
rescoring BERT model and adapt it to new domains using only a fraction (0.08%)
of the pretrained parameters. These inserted matrices are optimized through a
discriminative training objective along with a correlation-based regularization
loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is
evaluated on LibriSpeech and internal datasets with decreased training times by
factors between 5.4 and 3.6.