Invocation de modèles de langage de grande envergure dotés de capacités de reconnaissance vocale
Prompting Large Language Models with Speech Recognition Abilities
July 21, 2023
Auteurs: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Résumé
Les grands modèles de langage ont démontré une grande flexibilité, étant capables de résoudre un large éventail de tâches génératives, telles que la synthèse de résumés et la réponse à des questions ouvertes. Dans cet article, nous étendons les capacités des LLM en y attachant directement un petit encodeur audio, leur permettant ainsi d'effectuer de la reconnaissance vocale. En préfixant directement une séquence d'embeddings audio aux embeddings de tokens textuels, le LLM peut être converti en un système de reconnaissance vocale automatique (ASR) et être utilisé exactement de la même manière que sa version textuelle. Les expériences sur Multilingual LibriSpeech (MLS) montrent que l'intégration d'un encodeur Conformer dans le modèle LLaMA-7B open source lui permet de surpasser les modèles de référence monolingues de 18 % et d'effectuer de la reconnaissance vocale multilingue, bien que LLaMA ait été principalement entraîné sur du texte en anglais. De plus, nous menons des études d'ablation pour examiner si le LLM peut être entièrement gelé pendant l'entraînement afin de préserver ses capacités d'origine, en augmentant la taille de l'encodeur audio et en augmentant le pas de l'encodeur audio pour générer moins d'embeddings. Les résultats de ces études montrent que la reconnaissance vocale multilingue est possible même lorsque le LLM est gelé ou lorsque des pas de presque 1 seconde sont utilisés dans l'encodeur audio, ouvrant ainsi la possibilité pour les LLM de traiter des enregistrements audio de longue durée.
English
Large language models have proven themselves highly flexible, able to solve a
wide range of generative tasks, such as abstractive summarization and
open-ended question answering. In this paper we extend the capabilities of LLMs
by directly attaching a small audio encoder allowing it to perform speech
recognition. By directly prepending a sequence of audial embeddings to the text
token embeddings, the LLM can be converted to an automatic speech recognition
(ASR) system, and be used in the exact same manner as its textual counterpart.
Experiments on Multilingual LibriSpeech (MLS) show that incorporating a
conformer encoder into the open sourced LLaMA-7B allows it to outperform
monolingual baselines by 18% and perform multilingual speech recognition
despite LLaMA being trained overwhelmingly on English text. Furthermore, we
perform ablation studies to investigate whether the LLM can be completely
frozen during training to maintain its original capabilities, scaling up the
audio encoder, and increasing the audio encoder striding to generate fewer
embeddings. The results from these studies show that multilingual ASR is
possible even when the LLM is frozen or when strides of almost 1 second are
used in the audio encoder opening up the possibility for LLMs to operate on
long-form audio.