Reavaliação em Larga Escala de Modelos de Linguagem em Dados de Longa Duração

Resumo

Neste trabalho, estudamos o impacto dos Modelos de Linguagem de Grande Escala (LLM) no Reconhecimento Automático de Fala (ASR) de vídeos do YouTube, que utilizamos como fonte para ASR de longa duração. Demonstramos uma redução relativa de até 8\% na Taxa de Erro de Palavras (WER) em conjuntos de teste de ASR de longa duração para inglês americano (en-us) e inglês indiano com alternância de código (en-in), e uma redução relativa de até 30\% na Taxa de Erro de Termos Salientes (STER) em relação a uma linha de base forte de primeira passagem que utiliza um modelo de linguagem baseado em máxima entropia. O aprimoramento no processamento de treliças, resultando em uma treliça com uma topologia de dígrafo adequada (não-árvore) e carregando o contexto da hipótese 1-best do(s) segmento(s) anterior(es), leva a ganhos significativos na reavaliação com LLMs. Também constatamos que os ganhos de desempenho provenientes da combinação de LLMs treinados em grandes quantidades de dados disponíveis (como o C4) e modelos de linguagem neurais convencionais são aditivos e superam significativamente uma linha de base forte de primeira passagem com um modelo de linguagem de máxima entropia.

English

In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM.

Reavaliação em Larga Escala de Modelos de Linguagem em Dados de Longa Duração

Large-scale Language Model Rescoring on Long-form Data

Resumo

Support