ASR Multilingüe y Completamente No Autoregresivo con Fusión de Modelos de Lenguaje de Gran Escala: Un Estudio Exhaustivo
Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study
January 23, 2024
Autores: W. Ronny Huang, Cyril Allauzen, Tongzhou Chen, Kilol Gupta, Ke Hu, James Qin, Yu Zhang, Yongqiang Wang, Shuo-Yiin Chang, Tara N. Sainath
cs.AI
Resumen
En la era de los modelos grandes, la naturaleza autoregresiva de la decodificación suele resultar en que la latencia se convierta en un cuello de botella significativo. Proponemos un sistema de reconocimiento automático del habla (ASR) fusionado con modelos de lenguaje (LM) no autoregresivo que aprovecha eficazmente las capacidades de paralelización del hardware acelerador. Nuestro enfoque combina el Modelo de Habla Universal (USM) y el modelo de lenguaje PaLM 2 en modo de puntuación por segmentos, logrando una mejora relativa promedio en la tasa de error de palabras (WER) del 10,8% en FLEURS y del 3,6% en la subtitulación de YouTube. Además, nuestro estudio de ablación exhaustivo analiza parámetros clave como el tamaño del LM, la longitud del contexto, el tamaño del vocabulario y la metodología de fusión. Por ejemplo, exploramos el impacto del tamaño del LM, que varía desde 128M hasta 340B parámetros, en el rendimiento del ASR. Este estudio proporciona información valiosa sobre los factores que influyen en la efectividad de los sistemas prácticos de reconocimiento de habla a gran escala fusionados con modelos de lenguaje.
English
In the era of large models, the autoregressive nature of decoding often
results in latency serving as a significant bottleneck. We propose a
non-autoregressive LM-fused ASR system that effectively leverages the
parallelization capabilities of accelerator hardware. Our approach combines the
Universal Speech Model (USM) and the PaLM 2 language model in per-segment
scoring mode, achieving an average relative WER improvement across all
languages of 10.8% on FLEURS and 3.6% on YouTube captioning. Furthermore, our
comprehensive ablation study analyzes key parameters such as LLM size, context
length, vocabulary size, fusion methodology. For instance, we explore the
impact of LLM size ranging from 128M to 340B parameters on ASR performance.
This study provides valuable insights into the factors influencing the
effectiveness of practical large-scale LM-fused speech recognition systems.