LLaMA-Omni: Interação de Fala Contínua com Modelos de Linguagem Grandes
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
September 10, 2024
Autores: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
cs.AI
Resumo
Modelos como o GPT-4o permitem interação em tempo real com grandes modelos de linguagem (LLMs) por meio da fala, melhorando significativamente a experiência do usuário em comparação com a interação tradicional baseada em texto. No entanto, ainda há uma falta de exploração sobre como construir modelos de interação por fala com base em LLMs de código aberto. Para abordar isso, propomos o LLaMA-Omni, uma arquitetura de modelo inovadora projetada para interação por fala de baixa latência e alta qualidade com LLMs. O LLaMA-Omni integra um codificador de fala pré-treinado, um adaptador de fala, um LLM e um decodificador de fala em streaming. Ele elimina a necessidade de transcrição de fala e pode gerar textos e respostas de fala simultaneamente diretamente a partir de instruções de fala com latência extremamente baixa. Construímos nosso modelo com base no último modelo Llama-3.1-8B-Instruct. Para alinhar o modelo com cenários de interação por fala, construímos um conjunto de dados chamado InstructS2S-200K, que inclui 200 mil instruções de fala e respostas de fala correspondentes. Os resultados experimentais mostram que, em comparação com modelos anteriores de linguagem por fala, o LLaMA-Omni fornece respostas melhores tanto em conteúdo quanto em estilo, com uma latência de resposta tão baixa quanto 226ms. Além disso, o treinamento do LLaMA-Omni leva menos de 3 dias em apenas 4 GPUs, abrindo caminho para o desenvolvimento eficiente de modelos de linguagem por fala no futuro.
English
Models like GPT-4o enable real-time interaction with large language models
(LLMs) through speech, significantly enhancing user experience compared to
traditional text-based interaction. However, there is still a lack of
exploration on how to build speech interaction models based on open-source
LLMs. To address this, we propose LLaMA-Omni, a novel model architecture
designed for low-latency and high-quality speech interaction with LLMs.
LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM,
and a streaming speech decoder. It eliminates the need for speech
transcription, and can simultaneously generate text and speech responses
directly from speech instructions with extremely low latency. We build our
model based on the latest Llama-3.1-8B-Instruct model. To align the model with
speech interaction scenarios, we construct a dataset named InstructS2S-200K,
which includes 200K speech instructions and corresponding speech responses.
Experimental results show that compared to previous speech-language models,
LLaMA-Omni provides better responses in both content and style, with a response
latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3
days on just 4 GPUs, paving the way for the efficient development of
speech-language models in the future.Summary
AI-Generated Summary