Hacia capacidades de habla de propósito general para modelos de lenguaje grande utilizando datos no emparejados
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data
November 12, 2023
Autores: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Resumen
En este trabajo, extendemos el modelo Llama-2 ajustado por instrucciones con capacidades de procesamiento y razonamiento de habla de propósito general de extremo a extremo, manteniendo la amplia gama de capacidades de los LLM, sin utilizar datos cuidadosamente seleccionados y emparejados. El modelo propuesto puede utilizar señales de audio como reemplazo del texto y sostener una conversación. Tal modelo también tiene capacidades multimodales extendidas, como poder realizar respuestas a preguntas basadas en habla, traducción de habla y resumen de audio, entre muchas otras tareas de dominio cerrado y abierto. Esto difiere de enfoques previos en el procesamiento de habla, en los que los LLM se extienden para manejar audio en un número limitado de tareas predefinidas. Los experimentos muestran que nuestro enfoque de extremo a extremo es comparable o supera a un sistema en cascada (reconocedor de habla + LLM) en términos de modelar la respuesta a una indicación. Además, a diferencia de un sistema en cascada, nuestro enfoque muestra la capacidad de intercambiar modalidades de texto y audio y utilizar el contexto previo en una conversación para proporcionar mejores resultados.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end
general-purpose speech processing and reasoning abilities while maintaining the
wide range of LLM capabilities, without using any carefully curated paired
data. The proposed model can utilize audio prompts as a replacement for text
and sustain a conversation. Such a model also has extended cross-modal
capabilities such as being able to perform speech question answering, speech
translation, and audio summarization amongst many other closed and open-domain
tasks. This is unlike prior approaches in speech, in which LLMs are extended to
handle audio for a limited number of pre-designated tasks. Experiments show
that our end-to-end approach is on par with or outperforms a cascaded system
(speech recognizer + LLM) in terms of modeling the response to a prompt.
Furthermore, unlike a cascade, our approach shows the ability to interchange
text and audio modalities and utilize the prior context in a conversation to
provide better results.