ChatPaper.aiChatPaper

Réévaluation à grande échelle des modèles de langage sur des données de forme longue

Large-scale Language Model Rescoring on Long-form Data

June 13, 2023
Auteurs: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI

Résumé

Dans ce travail, nous étudions l'impact des modèles de langage à grande échelle (LLM) sur la reconnaissance automatique de la parole (ASR) de vidéos YouTube, que nous utilisons comme source pour l'ASR de contenu long. Nous démontrons une réduction relative allant jusqu'à 8\% du taux d'erreur sur les mots (WER) pour des ensembles de tests en anglais américain (en-us) et en anglais indien avec alternance codique (en-in), ainsi qu'une réduction relative allant jusqu'à 30\% du taux d'erreur sur les termes saillants (STER) par rapport à une base de référence solide en première passe utilisant un modèle de langage basé sur l'entropie maximale. Un traitement amélioré des treillis, aboutissant à un treillis avec une topologie de graphe orienté (non arborescent) et intégrant le contexte de l'hypothèse 1-best des segments précédents, permet des gains significatifs lors du réétiquetage avec les LLM. Nous constatons également que les gains de performance obtenus en combinant des LLM entraînés sur de vastes quantités de données disponibles (comme C4) et des modèles de langage neuronaux conventionnels sont additifs et surpassent de manière significative une base de référence solide en première passe avec un modèle de langage à entropie maximale.
English
In this work, we study the impact of Large-scale Language Models (LLM) on Automated Speech Recognition (ASR) of YouTube videos, which we use as a source for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error Eate (WER) on US English (en-us) and code-switched Indian English (en-in) long-form ASR test sets and a reduction of up to 30\% relative on Salient Term Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy based language model. Improved lattice processing that results in a lattice with a proper (non-tree) digraph topology and carrying context from the 1-best hypothesis of the previous segment(s) results in significant wins in rescoring with LLMs. We also find that the gains in performance from the combination of LLMs trained on vast quantities of available data (such as C4) and conventional neural LMs is additive and significantly outperforms a strong first-pass baseline with a maximum entropy LM.
PDF40December 15, 2024