Prompting di Modelli Linguistici di Grandi Dimensioni con Capacità di Riconoscimento Vocale
Prompting Large Language Models with Speech Recognition Abilities
July 21, 2023
Autori: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Abstract
I grandi modelli linguistici hanno dimostrato un'elevata flessibilità, essendo in grado di risolvere un'ampia gamma di compiti generativi, come la sintesi astratta e la risposta a domande aperte. In questo articolo estendiamo le capacità dei LLM collegando direttamente un piccolo codificatore audio, consentendogli di eseguire il riconoscimento vocale. Preponendo direttamente una sequenza di embedding audio agli embedding dei token testuali, il LLM può essere convertito in un sistema di riconoscimento vocale automatico (ASR) e utilizzato esattamente come la sua controparte testuale. Esperimenti su Multilingual LibriSpeech (MLS) mostrano che l'integrazione di un codificatore conformer nel modello open source LLaMA-7B gli permette di superare i baseline monolingue del 18% e di eseguire il riconoscimento vocale multilingue nonostante LLaMA sia stato addestrato prevalentemente su testo in inglese. Inoltre, conduciamo studi di ablazione per indagare se il LLM possa essere completamente congelato durante l'addestramento per mantenere le sue capacità originali, aumentando le dimensioni del codificatore audio e incrementando lo stride del codificatore audio per generare meno embedding. I risultati di questi studi dimostrano che il riconoscimento vocale multilingue è possibile anche quando il LLM è congelato o quando vengono utilizzati stride di quasi 1 secondo nel codificatore audio, aprendo la possibilità ai LLM di operare su audio di lunga durata.
English
Large language models have proven themselves highly flexible, able to solve a
wide range of generative tasks, such as abstractive summarization and
open-ended question answering. In this paper we extend the capabilities of LLMs
by directly attaching a small audio encoder allowing it to perform speech
recognition. By directly prepending a sequence of audial embeddings to the text
token embeddings, the LLM can be converted to an automatic speech recognition
(ASR) system, and be used in the exact same manner as its textual counterpart.
Experiments on Multilingual LibriSpeech (MLS) show that incorporating a
conformer encoder into the open sourced LLaMA-7B allows it to outperform
monolingual baselines by 18% and perform multilingual speech recognition
despite LLaMA being trained overwhelmingly on English text. Furthermore, we
perform ablation studies to investigate whether the LLM can be completely
frozen during training to maintain its original capabilities, scaling up the
audio encoder, and increasing the audio encoder striding to generate fewer
embeddings. The results from these studies show that multilingual ASR is
possible even when the LLM is frozen or when strides of almost 1 second are
used in the audio encoder opening up the possibility for LLMs to operate on
long-form audio.