Ricalibrazione su larga scala di modelli linguistici su dati a lungo formato
Large-scale Language Model Rescoring on Long-form Data
June 13, 2023
Autori: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI
Abstract
In questo lavoro, studiamo l'impatto dei Modelli Linguistici su Larga Scala (LLM) sul Riconoscimento Automatico del Parlato (ASR) di video YouTube, che utilizziamo come fonte per l'ASR di contenuti lunghi. Dimostriamo una riduzione relativa fino all'8\% nel Tasso di Errore sulle Parole (WER) su set di test ASR di contenuti lunghi in inglese americano (en-us) e inglese indiano con code-switching (en-in), e una riduzione relativa fino al 30\% nel Tasso di Errore sui Termini Salienti (STER) rispetto a una solida baseline di primo passaggio che utilizza un modello linguistico basato sulla massima entropia. Un miglioramento nell'elaborazione dei reticoli che produce un reticolo con una topologia di digrafo appropriata (non ad albero) e che mantiene il contesto dall'ipotesi 1-best del segmento precedente(i) porta a significativi vantaggi nel rescoring con gli LLM. Troviamo inoltre che i miglioramenti nelle prestazioni derivanti dalla combinazione di LLM addestrati su grandi quantità di dati disponibili (come C4) e modelli linguistici neurali convenzionali sono additivi e superano significativamente una solida baseline di primo passaggio con un modello linguistico a massima entropia.
English
In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.