Prompting von großen Sprachmodellen mit Spracherkennungsfähigkeiten
Prompting Large Language Models with Speech Recognition Abilities
July 21, 2023
Autoren: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Zusammenfassung
Große Sprachmodelle haben sich als äußerst flexibel erwiesen und sind in der Lage, eine Vielzahl von generativen Aufgaben zu lösen, wie beispielsweise abstrakte Zusammenfassung und offene Fragebeantwortung. In diesem Artikel erweitern wir die Fähigkeiten von LLMs, indem wir direkt einen kleinen Audio-Encoder anhängen, der es ermöglicht, Spracherkennung durchzuführen. Durch das direkte Voranstellen einer Sequenz von Audio-Embeddings an die Text-Token-Embeddings kann das LLM in ein automatisches Spracherkennungssystem (ASR) umgewandelt werden und auf die gleiche Weise wie sein textbasiertes Gegenstück verwendet werden. Experimente mit Multilingual LibriSpeech (MLS) zeigen, dass die Integration eines Conformer-Encoders in das quelloffene LLaMA-7B-Modell es ermöglicht, monolinguale Baselines um 18 % zu übertreffen und mehrsprachige Spracherkennung durchzuführen, obwohl LLaMA überwiegend auf englischem Text trainiert wurde. Darüber hinaus führen wir Ablationsstudien durch, um zu untersuchen, ob das LLM während des Trainings vollständig eingefroren werden kann, um seine ursprünglichen Fähigkeiten zu bewahren, den Audio-Encoder zu vergrößern und die Schrittweite des Audio-Encoders zu erhöhen, um weniger Embeddings zu erzeugen. Die Ergebnisse dieser Studien zeigen, dass mehrsprachige ASR selbst dann möglich ist, wenn das LLM eingefroren ist oder wenn Schrittweiten von fast einer Sekunde im Audio-Encoder verwendet werden, was die Möglichkeit eröffnet, dass LLMs mit langen Audioformaten arbeiten können.
English
Large language models have proven themselves highly flexible, able to solve a
wide range of generative tasks, such as abstractive summarization and
open-ended question answering. In this paper we extend the capabilities of LLMs
by directly attaching a small audio encoder allowing it to perform speech
recognition. By directly prepending a sequence of audial embeddings to the text
token embeddings, the LLM can be converted to an automatic speech recognition
(ASR) system, and be used in the exact same manner as its textual counterpart.
Experiments on Multilingual LibriSpeech (MLS) show that incorporating a
conformer encoder into the open sourced LLaMA-7B allows it to outperform
monolingual baselines by 18% and perform multilingual speech recognition
despite LLaMA being trained overwhelmingly on English text. Furthermore, we
perform ablation studies to investigate whether the LLM can be completely
frozen during training to maintain its original capabilities, scaling up the
audio encoder, and increasing the audio encoder striding to generate fewer
embeddings. The results from these studies show that multilingual ASR is
possible even when the LLM is frozen or when strides of almost 1 second are
used in the audio encoder opening up the possibility for LLMs to operate on
long-form audio.