Reavaliação em Larga Escala de Modelos de Linguagem em Dados de Longa Duração
Large-scale Language Model Rescoring on Long-form Data
June 13, 2023
Autores: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI
Resumo
Neste trabalho, estudamos o impacto dos Modelos de Linguagem de Grande Escala (LLM) no Reconhecimento Automático de Fala (ASR) de vídeos do YouTube, que utilizamos como fonte para ASR de longa duração. Demonstramos uma redução relativa de até 8\% na Taxa de Erro de Palavras (WER) em conjuntos de teste de ASR de longa duração para inglês americano (en-us) e inglês indiano com alternância de código (en-in), e uma redução relativa de até 30\% na Taxa de Erro de Termos Salientes (STER) em relação a uma linha de base forte de primeira passagem que utiliza um modelo de linguagem baseado em máxima entropia. O aprimoramento no processamento de treliças, resultando em uma treliça com uma topologia de dígrafo adequada (não-árvore) e carregando o contexto da hipótese 1-best do(s) segmento(s) anterior(es), leva a ganhos significativos na reavaliação com LLMs. Também constatamos que os ganhos de desempenho provenientes da combinação de LLMs treinados em grandes quantidades de dados disponíveis (como o C4) e modelos de linguagem neurais convencionais são aditivos e superam significativamente uma linha de base forte de primeira passagem com um modelo de linguagem de máxima entropia.
English
In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.