Reevaluación a gran escala de modelos de lenguaje en datos de formato largo

Resumen

En este trabajo, estudiamos el impacto de los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) en el Reconocimiento Automático del Habla (ASR) de videos de YouTube, que utilizamos como fuente para ASR de formato largo. Demostramos una reducción relativa de hasta el 8\% en la Tasa de Error de Palabras (WER) en conjuntos de prueba de ASR de formato largo para inglés estadounidense (en-us) e inglés indio con cambio de código (en-in), y una reducción relativa de hasta el 30\% en la Tasa de Error de Términos Relevantes (STER) sobre una línea de base sólida de primera pasada que utiliza un modelo de lenguaje basado en máxima entropía. Un procesamiento mejorado de la red de hipótesis que resulta en una red con una topología de dígrafo adecuada (no arbórea) y que lleva el contexto de la hipótesis 1-best de los segmentos anteriores produce mejoras significativas en la revaloración con LLM. También encontramos que las ganancias en rendimiento de la combinación de LLM entrenados con grandes cantidades de datos disponibles (como C4) y modelos de lenguaje neuronales convencionales son aditivas y superan significativamente una línea de base sólida de primera pasada con un modelo de lenguaje de máxima entropía.

English

In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM.

Reevaluación a gran escala de modelos de lenguaje en datos de formato largo

Large-scale Language Model Rescoring on Long-form Data

Resumen

Support