ChatPaper.aiChatPaper

Vers des capacités vocales polyvalentes pour les grands modèles de langage utilisant des données non appariées

Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

November 12, 2023
Auteurs: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI

Résumé

Dans ce travail, nous étendons le modèle Llama-2 ajusté par instructions avec des capacités de traitement et de raisonnement de la parole polyvalentes de bout en bout, tout en conservant la large gamme de capacités des LLM, sans utiliser de données appariées soigneusement sélectionnées. Le modèle proposé peut utiliser des invites audio en remplacement du texte et maintenir une conversation. Un tel modèle possède également des capacités intermodales étendues, telles que la capacité à effectuer des réponses à des questions basées sur la parole, la traduction de la parole et la synthèse audio, parmi de nombreuses autres tâches en domaine fermé ou ouvert. Cela diffère des approches antérieures dans le domaine de la parole, où les LLM sont étendus pour gérer l'audio pour un nombre limité de tâches prédéfinies. Les expériences montrent que notre approche de bout en bout est équivalente ou supérieure à un système en cascade (reconnaissance vocale + LLM) en termes de modélisation de la réponse à une invite. De plus, contrairement à une cascade, notre approche montre la capacité d'interchanger les modalités texte et audio et d'utiliser le contexte précédent dans une conversation pour fournir de meilleurs résultats.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end general-purpose speech processing and reasoning abilities while maintaining the wide range of LLM capabilities, without using any carefully curated paired data. The proposed model can utilize audio prompts as a replacement for text and sustain a conversation. Such a model also has extended cross-modal capabilities such as being able to perform speech question answering, speech translation, and audio summarization amongst many other closed and open-domain tasks. This is unlike prior approaches in speech, in which LLMs are extended to handle audio for a limited number of pre-designated tasks. Experiments show that our end-to-end approach is on par with or outperforms a cascaded system (speech recognizer + LLM) in terms of modeling the response to a prompt. Furthermore, unlike a cascade, our approach shows the ability to interchange text and audio modalities and utilize the prior context in a conversation to provide better results.
PDF80December 15, 2024