Hacia capacidades de habla de propósito general para modelos de lenguaje grande utilizando datos no emparejados

Resumen

En este trabajo, extendemos el modelo Llama-2 ajustado por instrucciones con capacidades de procesamiento y razonamiento de habla de propósito general de extremo a extremo, manteniendo la amplia gama de capacidades de los LLM, sin utilizar datos cuidadosamente seleccionados y emparejados. El modelo propuesto puede utilizar señales de audio como reemplazo del texto y sostener una conversación. Tal modelo también tiene capacidades multimodales extendidas, como poder realizar respuestas a preguntas basadas en habla, traducción de habla y resumen de audio, entre muchas otras tareas de dominio cerrado y abierto. Esto difiere de enfoques previos en el procesamiento de habla, en los que los LLM se extienden para manejar audio en un número limitado de tareas predefinidas. Los experimentos muestran que nuestro enfoque de extremo a extremo es comparable o supera a un sistema en cascada (reconocedor de habla + LLM) en términos de modelar la respuesta a una indicación. Además, a diferencia de un sistema en cascada, nuestro enfoque muestra la capacidad de intercambiar modalidades de texto y audio y utilizar el contexto previo en una conversación para proporcionar mejores resultados.

English

In this work, we extend the instruction-tuned Llama-2 model with end-to-end general-purpose speech processing and reasoning abilities while maintaining the wide range of LLM capabilities, without using any carefully curated paired data. The proposed model can utilize audio prompts as a replacement for text and sustain a conversation. Such a model also has extended cross-modal capabilities such as being able to perform speech question answering, speech translation, and audio summarization amongst many other closed and open-domain tasks. This is unlike prior approaches in speech, in which LLMs are extended to handle audio for a limited number of pre-designated tasks. Experiments show that our end-to-end approach is on par with or outperforms a cascaded system (speech recognizer + LLM) in terms of modeling the response to a prompt. Furthermore, unlike a cascade, our approach shows the ability to interchange text and audio modalities and utilize the prior context in a conversation to provide better results.

Hacia capacidades de habla de propósito general para modelos de lenguaje grande utilizando datos no emparejados

Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

Resumen

Support