Het aansturen van grote taalmodellen met spraakherkenningsmogelijkheden

Samenvatting

Grote taalmodelen hebben zich bewezen als zeer flexibel, in staat om een breed scala aan generatieve taken op te lossen, zoals abstractieve samenvatting en open-einde vraagbeantwoording. In dit artikel breiden we de mogelijkheden van LLM's uit door direct een kleine audio-encoder te koppelen, waardoor het spraakherkenning kan uitvoeren. Door direct een reeks auditieve embeddings vooraf te gaan aan de teksttoken-embeddings, kan het LLM worden omgezet in een automatisch spraakherkenningssysteem (ASR) en op precies dezelfde manier worden gebruikt als zijn tekstuele tegenhanger. Experimenten op Multilingual LibriSpeech (MLS) laten zien dat het integreren van een conformer-encoder in het open-source LLaMA-7B-model het mogelijk maakt om eentalige basislijnen met 18% te overtreffen en meertalige spraakherkenning uit te voeren, ondanks dat LLaMA overweldigend op Engelse tekst is getraind. Verder voeren we ablatiestudies uit om te onderzoeken of het LLM volledig bevroren kan worden tijdens de training om zijn oorspronkelijke mogelijkheden te behouden, de audio-encoder op te schalen, en de stapgrootte van de audio-encoder te vergroten om minder embeddings te genereren. De resultaten van deze studies tonen aan dat meertalige ASR mogelijk is, zelfs wanneer het LLM bevroren is of wanneer stappen van bijna 1 seconde worden gebruikt in de audio-encoder, wat de mogelijkheid opent voor LLM's om te werken met langdurige audio.

English

Large language models have proven themselves highly flexible, able to solve a wide range of generative tasks, such as abstractive summarization and open-ended question answering. In this paper we extend the capabilities of LLMs by directly attaching a small audio encoder allowing it to perform speech recognition. By directly prepending a sequence of audial embeddings to the text token embeddings, the LLM can be converted to an automatic speech recognition (ASR) system, and be used in the exact same manner as its textual counterpart. Experiments on Multilingual LibriSpeech (MLS) show that incorporating a conformer encoder into the open sourced LLaMA-7B allows it to outperform monolingual baselines by 18% and perform multilingual speech recognition despite LLaMA being trained overwhelmingly on English text. Furthermore, we perform ablation studies to investigate whether the LLM can be completely frozen during training to maintain its original capabilities, scaling up the audio encoder, and increasing the audio encoder striding to generate fewer embeddings. The results from these studies show that multilingual ASR is possible even when the LLM is frozen or when strides of almost 1 second are used in the audio encoder opening up the possibility for LLMs to operate on long-form audio.

Het aansturen van grote taalmodellen met spraakherkenningsmogelijkheden

Prompting Large Language Models with Speech Recognition Abilities

Samenvatting

Support