ChatPaper.aiChatPaper

LLaMA-Omni: Interazione Vocale Continua con Grandi Modelli Linguistici

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

September 10, 2024
Autori: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
cs.AI

Abstract

Modelli come GPT-4o consentono l'interazione in tempo reale con grandi modelli linguistici (LLM) attraverso il linguaggio parlato, migliorando significativamente l'esperienza dell'utente rispetto all'interazione tradizionale basata sul testo. Tuttavia, c'è ancora una mancanza di esplorazione su come costruire modelli di interazione vocale basati su LLM open-source. Per affrontare questo problema, proponiamo LLaMA-Omni, un'architettura di modello innovativa progettata per un'interazione vocale a bassa latenza e di alta qualità con LLM. LLaMA-Omni integra un codificatore vocale preaddestrato, un adattatore vocale, un LLM e un decodificatore vocale in streaming. Elimina la necessità di trascrizione vocale e può generare contemporaneamente risposte in testo e voce direttamente dalle istruzioni vocali con una latenza estremamente bassa. Costruiamo il nostro modello basandoci sul recente modello Llama-3.1-8B-Instruct. Per allineare il modello con scenari di interazione vocale, costruiamo un dataset chiamato InstructS2S-200K, che include 200.000 istruzioni vocali e relative risposte vocali. I risultati sperimentali mostrano che rispetto ai precedenti modelli di linguaggio vocale, LLaMA-Omni fornisce risposte migliori sia per contenuto che per stile, con una latenza di risposta fino a 226 ms. Inoltre, addestrare LLaMA-Omni richiede meno di 3 giorni con soli 4 GPU, aprendo la strada allo sviluppo efficiente di modelli di linguaggio vocale in futuro.
English
Models like GPT-4o enable real-time interaction with large language models (LLMs) through speech, significantly enhancing user experience compared to traditional text-based interaction. However, there is still a lack of exploration on how to build speech interaction models based on open-source LLMs. To address this, we propose LLaMA-Omni, a novel model architecture designed for low-latency and high-quality speech interaction with LLMs. LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM, and a streaming speech decoder. It eliminates the need for speech transcription, and can simultaneously generate text and speech responses directly from speech instructions with extremely low latency. We build our model based on the latest Llama-3.1-8B-Instruct model. To align the model with speech interaction scenarios, we construct a dataset named InstructS2S-200K, which includes 200K speech instructions and corresponding speech responses. Experimental results show that compared to previous speech-language models, LLaMA-Omni provides better responses in both content and style, with a response latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3 days on just 4 GPUs, paving the way for the efficient development of speech-language models in the future.

Summary

AI-Generated Summary

PDF585November 16, 2024