Reconnaissance vocale multilingue et entièrement non autorégressive avec fusion de modèle de langage de grande envergure : une étude approfondie
Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study
January 23, 2024
Auteurs: W. Ronny Huang, Cyril Allauzen, Tongzhou Chen, Kilol Gupta, Ke Hu, James Qin, Yu Zhang, Yongqiang Wang, Shuo-Yiin Chang, Tara N. Sainath
cs.AI
Résumé
À l'ère des grands modèles, la nature autorégressive du décodage entraîne souvent une latence qui constitue un goulot d'étranglement significatif. Nous proposons un système de reconnaissance automatique de la parole (ASR) non autorégressif fusionné avec un modèle de langage (LM) qui exploite efficacement les capacités de parallélisation des accélérateurs matériels. Notre approche combine le modèle universel de parole (USM) et le modèle de langage PaLM 2 en mode de scoring par segment, obtenant une amélioration relative moyenne du taux d'erreur de mots (WER) de 10,8 % sur FLEURS et de 3,6 % sur les sous-titres YouTube pour toutes les langues. De plus, notre étude d'ablation approfondie analyse des paramètres clés tels que la taille du LLM, la longueur du contexte, la taille du vocabulaire et la méthodologie de fusion. Par exemple, nous explorons l'impact de la taille du LLM, allant de 128 millions à 340 milliards de paramètres, sur les performances de l'ASR. Cette étude offre des insights précieux sur les facteurs influençant l'efficacité des systèmes pratiques de reconnaissance vocale à grande échelle fusionnés avec des modèles de langage.
English
In the era of large models, the autoregressive nature of decoding often
results in latency serving as a significant bottleneck. We propose a
non-autoregressive LM-fused ASR system that effectively leverages the
parallelization capabilities of accelerator hardware. Our approach combines the
Universal Speech Model (USM) and the PaLM 2 language model in per-segment
scoring mode, achieving an average relative WER improvement across all
languages of 10.8% on FLEURS and 3.6% on YouTube captioning. Furthermore, our
comprehensive ablation study analyzes key parameters such as LLM size, context
length, vocabulary size, fusion methodology. For instance, we explore the
impact of LLM size ranging from 128M to 340B parameters on ASR performance.
This study provides valuable insights into the factors influencing the
effectiveness of practical large-scale LM-fused speech recognition systems.