Contextualización de Reconocimiento de Voz de Extremo a Extremo con Modelos de Lenguaje a Gran Escala
End-to-End Speech Recognition Contextualization with Large Language Models
September 19, 2023
Autores: Egor Lakomkin, Chunyang Wu, Yassir Fathullah, Ozlem Kalinli, Michael L. Seltzer, Christian Fuegen
cs.AI
Resumen
En los últimos años, los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han captado una atención significativa por parte de la comunidad investigadora debido a su excepcional rendimiento y capacidades de generalización. En este artículo, presentamos un método novedoso para contextualizar modelos de reconocimiento de voz incorporando LLMs. Nuestro enfoque plantea el reconocimiento de voz como una tarea de modelado de lenguaje multimodal basada en un LLM preentrenado. Proporcionamos características de audio, junto con tokens de texto opcionales como contexto, para entrenar al sistema a completar transcripciones de manera exclusivamente decodificadora. Como resultado, el sistema está implícitamente incentivado a aprender cómo aprovechar la información contextual no estructurada durante el entrenamiento. Nuestros resultados empíricos demuestran una mejora significativa en el rendimiento, con una reducción del 6% en la Tasa de Error de Palabras (WER) cuando se proporciona contexto textual adicional. Además, encontramos que nuestro método compite favorablemente y mejora en un 7.5% el WER general y en un 17% el WER en palabras raras, en comparación con un sistema RNN-T contextualizado de referencia que ha sido entrenado con un conjunto de datos de voz más de veinticinco veces mayor. En general, demostramos que, al añadir solo un pequeño número de parámetros entrenables mediante adaptadores, podemos desbloquear la capacidad de reconocimiento de voz contextualizado para el LLM preentrenado, manteniendo al mismo tiempo la funcionalidad de entrada exclusivamente textual.
English
In recent years, Large Language Models (LLMs) have garnered significant
attention from the research community due to their exceptional performance and
generalization capabilities. In this paper, we introduce a novel method for
contextualizing speech recognition models incorporating LLMs. Our approach
casts speech recognition as a mixed-modal language modeling task based on a
pretrained LLM. We provide audio features, along with optional text tokens for
context, to train the system to complete transcriptions in a decoder-only
fashion. As a result, the system is implicitly incentivized to learn how to
leverage unstructured contextual information during training. Our empirical
results demonstrate a significant improvement in performance, with a 6% WER
reduction when additional textual context is provided. Moreover, we find that
our method performs competitively and improve by 7.5% WER overall and 17% WER
on rare words against a baseline contextualized RNN-T system that has been
trained on more than twenty five times larger speech dataset. Overall, we
demonstrate that by only adding a handful number of trainable parameters via
adapters, we can unlock contextualized speech recognition capability for the
pretrained LLM while keeping the same text-only input functionality.