Grootschalige herscoreing van taalmodel op langere dataformaten
Large-scale Language Model Rescoring on Long-form Data
June 13, 2023
Auteurs: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI
Samenvatting
In dit werk onderzoeken we de impact van grootschalige taalmmodellen (LLM) op automatische spraakherkenning (ASR) van YouTube-video's, die we gebruiken als bron voor langdurige ASR. We laten een relatieve reductie van tot 8\% zien in de woordfoutfrequentie (WER) voor langdurige ASR-testset voor Amerikaans Engels (en-us) en code-switched Indiaas Engels (en-in), en een reductie van tot 30\% relatief in de Salient Term Error Rate (STER) ten opzichte van een sterke eerste-pas baseline die een op maximale entropie gebaseerd taalmodel gebruikt. Verbeterde latticeverwerking, wat resulteert in een lattice met een correcte (niet-boom) digraaftopologie en het meenemen van context uit de 1-beste hypothese van het vorige segment, leidt tot significante verbeteringen in herscoring met LLM's. We ontdekken ook dat de prestatieverbeteringen door de combinatie van LLM's die getraind zijn op grote hoeveelheden beschikbare data (zoals C4) en conventionele neurale taalmmodellen additief zijn en significant beter presteren dan een sterke eerste-pas baseline met een op maximale entropie gebaseerd taalmodel.
English
In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.