Adaptación de Bajo Rango para la Recalificación de Modelos de Lenguaje de Gran Escala en el Reconocimiento de Voz Eficiente en Parámetros
Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
September 26, 2023
Autores: Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko
cs.AI
Resumen
Proponemos un sistema de modelado de lenguaje neuronal basado en adaptación de bajo rango (LoRA) para la revalorización de salidas de reconocimiento de voz. Aunque los modelos de lenguaje preentrenados (LM) como BERT han demostrado un rendimiento superior en la revalorización de segunda pasada, el alto costo computacional de escalar la etapa de preentrenamiento y adaptar los modelos preentrenados a dominios específicos limita su uso práctico en la revalorización. Aquí presentamos un método basado en descomposición de bajo rango para entrenar un modelo BERT de revalorización y adaptarlo a nuevos dominios utilizando solo una fracción (0.08%) de los parámetros preentrenados. Estas matrices insertadas se optimizan mediante un objetivo de entrenamiento discriminativo junto con una pérdida de regularización basada en correlación. La arquitectura propuesta de BERT de revalorización con adaptación de bajo rango (LoRB) se evalúa en los conjuntos de datos LibriSpeech e internos, con tiempos de entrenamiento reducidos en factores entre 5.4 y 3.6.
English
We propose a neural language modeling system based on low-rank adaptation
(LoRA) for speech recognition output rescoring. Although pretrained language
models (LMs) like BERT have shown superior performance in second-pass
rescoring, the high computational cost of scaling up the pretraining stage and
adapting the pretrained models to specific domains limit their practical use in
rescoring. Here we present a method based on low-rank decomposition to train a
rescoring BERT model and adapt it to new domains using only a fraction (0.08%)
of the pretrained parameters. These inserted matrices are optimized through a
discriminative training objective along with a correlation-based regularization
loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is
evaluated on LibriSpeech and internal datasets with decreased training times by
factors between 5.4 and 3.6.