Verso capacità linguistiche generali per modelli linguistici di grandi dimensioni utilizzando dati non accoppiati
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data
November 12, 2023
Autori: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Abstract
In questo lavoro, estendiamo il modello Llama-2 sintonizzato su istruzioni con capacità di elaborazione e ragionamento end-to-end per il parlato generico, mantenendo l'ampia gamma di capacità dei modelli linguistici di grandi dimensioni (LLM), senza utilizzare dati accoppiati accuratamente curati. Il modello proposto può utilizzare prompt audio come sostituti del testo e sostenere una conversazione. Tale modello possiede inoltre capacità cross-modali estese, come la capacità di eseguire risposte a domande basate sul parlato, traduzione del parlato e riassunto audio, tra molti altri compiti in domini chiusi e aperti. Ciò differisce dagli approcci precedenti nel campo del parlato, in cui gli LLM vengono estesi per gestire l'audio solo per un numero limitato di compiti predefiniti. Gli esperimenti dimostrano che il nostro approccio end-to-end è pari o superiore a un sistema a cascata (riconoscitore vocale + LLM) in termini di modellazione della risposta a un prompt. Inoltre, a differenza di un sistema a cascata, il nostro approccio mostra la capacità di scambiare le modalità testo e audio e di utilizzare il contesto precedente in una conversazione per fornire risultati migliori.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end
general-purpose speech processing and reasoning abilities while maintaining the
wide range of LLM capabilities, without using any carefully curated paired
data. The proposed model can utilize audio prompts as a replacement for text
and sustain a conversation. Such a model also has extended cross-modal
capabilities such as being able to perform speech question answering, speech
translation, and audio summarization amongst many other closed and open-domain
tasks. This is unlike prior approaches in speech, in which LLMs are extended to
handle audio for a limited number of pre-designated tasks. Experiments show
that our end-to-end approach is on par with or outperforms a cascaded system
(speech recognizer + LLM) in terms of modeling the response to a prompt.
Furthermore, unlike a cascade, our approach shows the ability to interchange
text and audio modalities and utilize the prior context in a conversation to
provide better results.