ChatPaper.aiChatPaper

Rumo a Habilidades de Fala de Propósito Geral para Modelos de Linguagem de Grande Escala Usando Dados Não Pareados

Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

November 12, 2023
Autores: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI

Resumo

Neste trabalho, estendemos o modelo Llama-2 ajustado por instruções com capacidades de processamento e raciocínio de fala de propósito geral de ponta a ponta, mantendo a ampla gama de capacidades dos LLMs, sem o uso de dados pareados cuidadosamente curados. O modelo proposto pode utilizar prompts de áudio como substitutos para texto e sustentar uma conversa. Tal modelo também possui capacidades multimodais estendidas, como a capacidade de realizar respostas a perguntas de fala, tradução de fala e resumo de áudio, entre muitas outras tarefas de domínio fechado e aberto. Isso difere de abordagens anteriores em fala, nas quais LLMs são estendidos para lidar com áudio em um número limitado de tarefas pré-designadas. Experimentos mostram que nossa abordagem de ponta a ponta é comparável ou supera um sistema em cascata (reconhecedor de fala + LLM) em termos de modelagem da resposta a um prompt. Além disso, diferentemente de uma cascata, nossa abordagem demonstra a capacidade de intercambiar modalidades de texto e áudio e utilizar o contexto anterior em uma conversa para fornecer resultados melhores.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end general-purpose speech processing and reasoning abilities while maintaining the wide range of LLM capabilities, without using any carefully curated paired data. The proposed model can utilize audio prompts as a replacement for text and sustain a conversation. Such a model also has extended cross-modal capabilities such as being able to perform speech question answering, speech translation, and audio summarization amongst many other closed and open-domain tasks. This is unlike prior approaches in speech, in which LLMs are extended to handle audio for a limited number of pre-designated tasks. Experiments show that our end-to-end approach is on par with or outperforms a cascaded system (speech recognizer + LLM) in terms of modeling the response to a prompt. Furthermore, unlike a cascade, our approach shows the ability to interchange text and audio modalities and utilize the prior context in a conversation to provide better results.
PDF80December 15, 2024