ChatPaper.aiChatPaper

Adaptação de Baixo Rank para Reclassificação de Modelos de Linguagem de Grande Escala em Reconhecimento de Fala com Eficiência de Parâmetros

Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition

September 26, 2023
Autores: Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko
cs.AI

Resumo

Propomos um sistema de modelagem de linguagem neural baseado em adaptação de baixo posto (LoRA) para reescore da saída de reconhecimento de fala. Embora modelos de linguagem pré-treinados (LMs) como o BERT tenham demonstrado desempenho superior no reescore de segunda passagem, o alto custo computacional de escalonar a etapa de pré-treinamento e adaptar os modelos pré-treinados a domínios específicos limita seu uso prático no reescore. Aqui apresentamos um método baseado em decomposição de baixo posto para treinar um modelo BERT de reescore e adaptá-lo a novos domínios utilizando apenas uma fração (0,08%) dos parâmetros pré-treinados. Essas matrizes inseridas são otimizadas por meio de um objetivo de treinamento discriminativo juntamente com uma função de regularização baseada em correlação. A arquitetura proposta de BERT de reescore com adaptação de baixo posto (LoRB) é avaliada nos conjuntos de dados LibriSpeech e internos, com tempos de treinamento reduzidos em fatores entre 5,4 e 3,6.
English
We propose a neural language modeling system based on low-rank adaptation (LoRA) for speech recognition output rescoring. Although pretrained language models (LMs) like BERT have shown superior performance in second-pass rescoring, the high computational cost of scaling up the pretraining stage and adapting the pretrained models to specific domains limit their practical use in rescoring. Here we present a method based on low-rank decomposition to train a rescoring BERT model and adapt it to new domains using only a fraction (0.08%) of the pretrained parameters. These inserted matrices are optimized through a discriminative training objective along with a correlation-based regularization loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is evaluated on LibriSpeech and internal datasets with decreased training times by factors between 5.4 and 3.6.
PDF221February 8, 2026