ChatPaper.aiChatPaper

Activación de Modelos de Lenguaje de Gran Escala con Capacidades de Reconocimiento de Voz

Prompting Large Language Models with Speech Recognition Abilities

July 21, 2023
Autores: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI

Resumen

Los modelos de lenguaje grande (LLM, por sus siglas en inglés) han demostrado ser altamente versátiles, capaces de resolver una amplia gama de tareas generativas, como la resumen abstractivo y la respuesta a preguntas de respuesta abierta. En este artículo, ampliamos las capacidades de los LLM al adjuntar directamente un pequeño codificador de audio que le permite realizar reconocimiento de voz. Al anteponer directamente una secuencia de incrustaciones auditivas a las incrustaciones de tokens de texto, el LLM puede convertirse en un sistema de reconocimiento automático del habla (ASR, por sus siglas en inglés) y utilizarse de la misma manera que su contraparte textual. Los experimentos en Multilingual LibriSpeech (MLS) muestran que la incorporación de un codificador conformer en el LLaMA-7B de código abierto le permite superar los baselines monolingües en un 18% y realizar reconocimiento de voz multilingüe, a pesar de que LLaMA fue entrenado predominantemente con texto en inglés. Además, realizamos estudios de ablación para investigar si el LLM puede congelarse por completo durante el entrenamiento para mantener sus capacidades originales, escalar el codificador de audio y aumentar el paso del codificador de audio para generar menos incrustaciones. Los resultados de estos estudios muestran que el ASR multilingüe es posible incluso cuando el LLM está congelado o cuando se utilizan pasos de casi 1 segundo en el codificador de audio, lo que abre la posibilidad de que los LLM operen en audio de larga duración.
English
Large language models have proven themselves highly flexible, able to solve a wide range of generative tasks, such as abstractive summarization and open-ended question answering. In this paper we extend the capabilities of LLMs by directly attaching a small audio encoder allowing it to perform speech recognition. By directly prepending a sequence of audial embeddings to the text token embeddings, the LLM can be converted to an automatic speech recognition (ASR) system, and be used in the exact same manner as its textual counterpart. Experiments on Multilingual LibriSpeech (MLS) show that incorporating a conformer encoder into the open sourced LLaMA-7B allows it to outperform monolingual baselines by 18% and perform multilingual speech recognition despite LLaMA being trained overwhelmingly on English text. Furthermore, we perform ablation studies to investigate whether the LLM can be completely frozen during training to maintain its original capabilities, scaling up the audio encoder, and increasing the audio encoder striding to generate fewer embeddings. The results from these studies show that multilingual ASR is possible even when the LLM is frozen or when strides of almost 1 second are used in the audio encoder opening up the possibility for LLMs to operate on long-form audio.
PDF171December 15, 2024