Großskalige Sprachmodell-Neubewertung bei langen Datenformaten
Large-scale Language Model Rescoring on Long-form Data
June 13, 2023
Autoren: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI
Zusammenfassung
In dieser Arbeit untersuchen wir den Einfluss von Large-scale Language Models (LLM) auf die Automatische Spracherkennung (ASR) von YouTube-Videos, die wir als Quelle für langformatige ASR verwenden. Wir zeigen eine relative Reduktion der Wortfehlerrate (WER) von bis zu 8 % bei langformatigen ASR-Testdatensätzen für US-Englisch (en-us) und code-switched Indian English (en-in) sowie eine relative Reduktion der Salient Term Error Rate (STER) von bis zu 30 % gegenüber einem starken First-Pass-Baseline-Modell, das ein Maximum-Entropy-basiertes Sprachmodell verwendet. Eine verbesserte Gitterverarbeitung, die zu einem Gitter mit einer korrekten (nicht-baumartigen) Digraphentopologie führt und den Kontext aus der 1-best-Hypothese der vorherigen Segmente überträgt, führt zu signifikanten Verbesserungen beim Rescoring mit LLMs. Wir stellen außerdem fest, dass die Leistungssteigerungen durch die Kombination von LLMs, die auf großen Mengen verfügbarer Daten (wie C4) trainiert wurden, und konventionellen neuronalen Sprachmodellen additiv sind und ein starkes First-Pass-Baseline-Modell mit einem Maximum-Entropy-Sprachmodell deutlich übertreffen.
English
In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.