Contextualización de Reconocimiento de Voz de Extremo a Extremo con Modelos de Lenguaje a Gran Escala

Resumen

En los últimos años, los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han captado una atención significativa por parte de la comunidad investigadora debido a su excepcional rendimiento y capacidades de generalización. En este artículo, presentamos un método novedoso para contextualizar modelos de reconocimiento de voz incorporando LLMs. Nuestro enfoque plantea el reconocimiento de voz como una tarea de modelado de lenguaje multimodal basada en un LLM preentrenado. Proporcionamos características de audio, junto con tokens de texto opcionales como contexto, para entrenar al sistema a completar transcripciones de manera exclusivamente decodificadora. Como resultado, el sistema está implícitamente incentivado a aprender cómo aprovechar la información contextual no estructurada durante el entrenamiento. Nuestros resultados empíricos demuestran una mejora significativa en el rendimiento, con una reducción del 6% en la Tasa de Error de Palabras (WER) cuando se proporciona contexto textual adicional. Además, encontramos que nuestro método compite favorablemente y mejora en un 7.5% el WER general y en un 17% el WER en palabras raras, en comparación con un sistema RNN-T contextualizado de referencia que ha sido entrenado con un conjunto de datos de voz más de veinticinco veces mayor. En general, demostramos que, al añadir solo un pequeño número de parámetros entrenables mediante adaptadores, podemos desbloquear la capacidad de reconocimiento de voz contextualizado para el LLM preentrenado, manteniendo al mismo tiempo la funcionalidad de entrada exclusivamente textual.

English

In recent years, Large Language Models (LLMs) have garnered significant attention from the research community due to their exceptional performance and generalization capabilities. In this paper, we introduce a novel method for contextualizing speech recognition models incorporating LLMs. Our approach casts speech recognition as a mixed-modal language modeling task based on a pretrained LLM. We provide audio features, along with optional text tokens for context, to train the system to complete transcriptions in a decoder-only fashion. As a result, the system is implicitly incentivized to learn how to leverage unstructured contextual information during training. Our empirical results demonstrate a significant improvement in performance, with a 6% WER reduction when additional textual context is provided. Moreover, we find that our method performs competitively and improve by 7.5% WER overall and 17% WER on rare words against a baseline contextualized RNN-T system that has been trained on more than twenty five times larger speech dataset. Overall, we demonstrate that by only adding a handful number of trainable parameters via adapters, we can unlock contextualized speech recognition capability for the pretrained LLM while keeping the same text-only input functionality.

Contextualización de Reconocimiento de Voz de Extremo a Extremo con Modelos de Lenguaje a Gran Escala

End-to-End Speech Recognition Contextualization with Large Language Models

Resumen

Support