Prompting de Modelos de Linguagem de Grande Escala com Habilidades de Reconhecimento de Fala
Prompting Large Language Models with Speech Recognition Abilities
July 21, 2023
Autores: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Resumo
Modelos de linguagem de grande escala demonstraram ser altamente flexíveis, capazes de resolver uma ampla gama de tarefas generativas, como sumarização abstrata e respostas a perguntas abertas. Neste artigo, estendemos as capacidades dos LLMs ao anexar diretamente um pequeno codificador de áudio, permitindo que ele realize reconhecimento de fala. Ao pré-adicionar diretamente uma sequência de embeddings auditivos aos embeddings de tokens de texto, o LLM pode ser convertido em um sistema de reconhecimento automático de fala (ASR) e ser usado exatamente da mesma maneira que sua contraparte textual. Experimentos no Multilingual LibriSpeech (MLS) mostram que a incorporação de um codificador conformer ao LLaMA-7B de código aberto permite que ele supere baselines monolíngues em 18% e realize reconhecimento de fala multilíngue, apesar do LLaMA ter sido treinado predominantemente em texto em inglês. Além disso, realizamos estudos de ablação para investigar se o LLM pode ser completamente congelado durante o treinamento para manter suas capacidades originais, escalando o codificador de áudio e aumentando o passo do codificador de áudio para gerar menos embeddings. Os resultados desses estudos mostram que o ASR multilíngue é possível mesmo quando o LLM está congelado ou quando passos de quase 1 segundo são usados no codificador de áudio, abrindo a possibilidade de LLMs operarem em áudios de longa duração.
English
Large language models have proven themselves highly flexible, able to solve a
wide range of generative tasks, such as abstractive summarization and
open-ended question answering. In this paper we extend the capabilities of LLMs
by directly attaching a small audio encoder allowing it to perform speech
recognition. By directly prepending a sequence of audial embeddings to the text
token embeddings, the LLM can be converted to an automatic speech recognition
(ASR) system, and be used in the exact same manner as its textual counterpart.
Experiments on Multilingual LibriSpeech (MLS) show that incorporating a
conformer encoder into the open sourced LLaMA-7B allows it to outperform
monolingual baselines by 18% and perform multilingual speech recognition
despite LLaMA being trained overwhelmingly on English text. Furthermore, we
perform ablation studies to investigate whether the LLM can be completely
frozen during training to maintain its original capabilities, scaling up the
audio encoder, and increasing the audio encoder striding to generate fewer
embeddings. The results from these studies show that multilingual ASR is
possible even when the LLM is frozen or when strides of almost 1 second are
used in the audio encoder opening up the possibility for LLMs to operate on
long-form audio.