Reevaluación a gran escala de modelos de lenguaje en datos de formato largo
Large-scale Language Model Rescoring on Long-form Data
June 13, 2023
Autores: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI
Resumen
En este trabajo, estudiamos el impacto de los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) en el Reconocimiento Automático del Habla (ASR) de videos de YouTube, que utilizamos como fuente para ASR de formato largo. Demostramos una reducción relativa de hasta el 8\% en la Tasa de Error de Palabras (WER) en conjuntos de prueba de ASR de formato largo para inglés estadounidense (en-us) e inglés indio con cambio de código (en-in), y una reducción relativa de hasta el 30\% en la Tasa de Error de Términos Relevantes (STER) sobre una línea de base sólida de primera pasada que utiliza un modelo de lenguaje basado en máxima entropía. Un procesamiento mejorado de la red de hipótesis que resulta en una red con una topología de dígrafo adecuada (no arbórea) y que lleva el contexto de la hipótesis 1-best de los segmentos anteriores produce mejoras significativas en la revaloración con LLM. También encontramos que las ganancias en rendimiento de la combinación de LLM entrenados con grandes cantidades de datos disponibles (como C4) y modelos de lenguaje neuronales convencionales son aditivas y superan significativamente una línea de base sólida de primera pasada con un modelo de lenguaje de máxima entropía.
English
In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.