Naar Algemene Spraakmogelijkheden voor Grote Taalmodellen met Gebruik van Ongepaarde Gegevens
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data
November 12, 2023
Auteurs: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Samenvatting
In dit werk breiden we het instructie-afgestemde Llama-2 model uit met end-to-end algemene spraakverwerkings- en redeneervaardigheden, terwijl het brede scala aan LLM-mogelijkheden behouden blijft, zonder gebruik te maken van zorgvuldig samengestelde gepaarde data. Het voorgestelde model kan audioboodschappen gebruiken als vervanging voor tekst en een gesprek volhouden. Zo'n model beschikt ook over uitgebreide cross-modale mogelijkheden, zoals het kunnen uitvoeren van spraakvraagbeantwoording, spraakvertaling en audiosamenvatting, naast vele andere gesloten en open-domeintaken. Dit is anders dan eerdere benaderingen in spraak, waarbij LLM's worden uitgebreid om audio te verwerken voor een beperkt aantal vooraf bepaalde taken. Experimenten tonen aan dat onze end-to-end benadering gelijkwaardig is aan of beter presteert dan een gecascadeerd systeem (spraakherkenner + LLM) wat betreft het modelleren van de reactie op een prompt. Bovendien toont onze benadering, in tegenstelling tot een cascade, het vermogen om tekst- en audiomodaliteiten uit te wisselen en de eerdere context in een gesprek te benutten om betere resultaten te leveren.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end
general-purpose speech processing and reasoning abilities while maintaining the
wide range of LLM capabilities, without using any carefully curated paired
data. The proposed model can utilize audio prompts as a replacement for text
and sustain a conversation. Such a model also has extended cross-modal
capabilities such as being able to perform speech question answering, speech
translation, and audio summarization amongst many other closed and open-domain
tasks. This is unlike prior approaches in speech, in which LLMs are extended to
handle audio for a limited number of pre-designated tasks. Experiments show
that our end-to-end approach is on par with or outperforms a cascaded system
(speech recognizer + LLM) in terms of modeling the response to a prompt.
Furthermore, unlike a cascade, our approach shows the ability to interchange
text and audio modalities and utilize the prior context in a conversation to
provide better results.