Großskalige Sprachmodell-Neubewertung bei langen Datenformaten

Zusammenfassung

In dieser Arbeit untersuchen wir den Einfluss von Large-scale Language Models (LLM) auf die Automatische Spracherkennung (ASR) von YouTube-Videos, die wir als Quelle für langformatige ASR verwenden. Wir zeigen eine relative Reduktion der Wortfehlerrate (WER) von bis zu 8 % bei langformatigen ASR-Testdatensätzen für US-Englisch (en-us) und code-switched Indian English (en-in) sowie eine relative Reduktion der Salient Term Error Rate (STER) von bis zu 30 % gegenüber einem starken First-Pass-Baseline-Modell, das ein Maximum-Entropy-basiertes Sprachmodell verwendet. Eine verbesserte Gitterverarbeitung, die zu einem Gitter mit einer korrekten (nicht-baumartigen) Digraphentopologie führt und den Kontext aus der 1-best-Hypothese der vorherigen Segmente überträgt, führt zu signifikanten Verbesserungen beim Rescoring mit LLMs. Wir stellen außerdem fest, dass die Leistungssteigerungen durch die Kombination von LLMs, die auf großen Mengen verfügbarer Daten (wie C4) trainiert wurden, und konventionellen neuronalen Sprachmodellen additiv sind und ein starkes First-Pass-Baseline-Modell mit einem Maximum-Entropy-Sprachmodell deutlich übertreffen.

English

In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM.

Großskalige Sprachmodell-Neubewertung bei langen Datenformaten

Large-scale Language Model Rescoring on Long-form Data

Zusammenfassung

Support