Grootschalige herscoreing van taalmodel op langere dataformaten

Samenvatting

In dit werk onderzoeken we de impact van grootschalige taalmmodellen (LLM) op automatische spraakherkenning (ASR) van YouTube-video's, die we gebruiken als bron voor langdurige ASR. We laten een relatieve reductie van tot 8\% zien in de woordfoutfrequentie (WER) voor langdurige ASR-testset voor Amerikaans Engels (en-us) en code-switched Indiaas Engels (en-in), en een reductie van tot 30\% relatief in de Salient Term Error Rate (STER) ten opzichte van een sterke eerste-pas baseline die een op maximale entropie gebaseerd taalmodel gebruikt. Verbeterde latticeverwerking, wat resulteert in een lattice met een correcte (niet-boom) digraaftopologie en het meenemen van context uit de 1-beste hypothese van het vorige segment, leidt tot significante verbeteringen in herscoring met LLM's. We ontdekken ook dat de prestatieverbeteringen door de combinatie van LLM's die getraind zijn op grote hoeveelheden beschikbare data (zoals C4) en conventionele neurale taalmmodellen additief zijn en significant beter presteren dan een sterke eerste-pas baseline met een op maximale entropie gebaseerd taalmodel.

English

In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM.

Grootschalige herscoreing van taalmodel op langere dataformaten

Large-scale Language Model Rescoring on Long-form Data

Samenvatting

Support