ChatPaper.aiChatPaper

Hin zu allgemeinen Sprachfähigkeiten für große Sprachmodelle unter Verwendung ungepaarter Daten

Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

November 12, 2023
Autoren: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI

Zusammenfassung

In dieser Arbeit erweitern wir das instruction-tuned Llama-2-Modell um end-to-end allgemeine Sprachverarbeitungs- und Reasoning-Fähigkeiten, während wir die breite Palette der LLM-Fähigkeiten beibehalten, ohne dabei auf sorgfältig kuratierte gepaarte Daten zurückzugreifen. Das vorgeschlagene Modell kann Audio-Prompts als Ersatz für Text verwenden und eine Konversation aufrechterhalten. Ein solches Modell verfügt zudem über erweiterte cross-modale Fähigkeiten, wie beispielsweise die Durchführung von Sprachfragebeantwortung, Sprachübersetzung und Audio-Zusammenfassung sowie viele andere geschlossene und offene Aufgaben. Dies unterscheidet sich von früheren Ansätzen im Bereich der Sprachverarbeitung, bei denen LLMs erweitert wurden, um Audio für eine begrenzte Anzahl vordefinierter Aufgaben zu verarbeiten. Experimente zeigen, dass unser end-to-end-Ansatz in Bezug auf die Modellierung der Reaktion auf einen Prompt mit einem kaskadierten System (Spracherkenner + LLM) gleichzieht oder dieses sogar übertrifft. Darüber hinaus zeigt unser Ansatz im Gegensatz zu einer Kaskade die Fähigkeit, Text- und Audio-Modalitäten auszutauschen und den vorherigen Kontext in einer Konversation zu nutzen, um bessere Ergebnisse zu erzielen.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end general-purpose speech processing and reasoning abilities while maintaining the wide range of LLM capabilities, without using any carefully curated paired data. The proposed model can utilize audio prompts as a replacement for text and sustain a conversation. Such a model also has extended cross-modal capabilities such as being able to perform speech question answering, speech translation, and audio summarization amongst many other closed and open-domain tasks. This is unlike prior approaches in speech, in which LLMs are extended to handle audio for a limited number of pre-designated tasks. Experiments show that our end-to-end approach is on par with or outperforms a cascaded system (speech recognizer + LLM) in terms of modeling the response to a prompt. Furthermore, unlike a cascade, our approach shows the ability to interchange text and audio modalities and utilize the prior context in a conversation to provide better results.
PDF80December 15, 2024