LLaMA-Omni: Nahtlose Sprachinteraktion mit großen Sprachmodellen
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
September 10, 2024
Autoren: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
cs.AI
Zusammenfassung
Modelle wie GPT-4o ermöglichen eine Echtzeit-Interaktion mit großen Sprachmodellen (LLMs) über Sprache und verbessern die Benutzererfahrung erheblich im Vergleich zur traditionellen textbasierten Interaktion. Es besteht jedoch weiterhin ein Mangel an Erforschung darüber, wie Sprachinteraktionsmodelle auf Open-Source LLMs aufgebaut werden können. Um dies anzugehen, schlagen wir LLaMA-Omni vor, eine neuartige Modellarchitektur, die für eine geringe Latenzzeit und hochwertige Sprachinteraktion mit LLMs entwickelt wurde. LLaMA-Omni integriert einen vorab trainierten Sprachencoder, einen Sprachadapter, ein LLM und einen Streaming-Sprachdecoder. Es beseitigt die Notwendigkeit für Spracherkennung und kann gleichzeitig Text und Sprachantworten direkt aus Sprachanweisungen mit extrem geringer Latenz generieren. Wir bauen unser Modell auf dem neuesten Llama-3.1-8B-Instruct-Modell auf. Um das Modell auf Sprachinteraktionsszenarien abzustimmen, erstellen wir einen Datensatz namens InstructS2S-200K, der 200.000 Sprachanweisungen und entsprechende Sprachantworten enthält. Experimentelle Ergebnisse zeigen, dass LLaMA-Omni im Vergleich zu früheren Sprach-Sprach-Modellen bessere Antworten sowohl inhaltlich als auch im Stil liefert, mit einer Reaktionslatenzzeit von nur 226 ms. Darüber hinaus dauert das Training von LLaMA-Omni weniger als 3 Tage auf nur 4 GPUs und ebnet den Weg für die effiziente Entwicklung von Sprach-Sprach-Modellen in der Zukunft.
English
Models like GPT-4o enable real-time interaction with large language models
(LLMs) through speech, significantly enhancing user experience compared to
traditional text-based interaction. However, there is still a lack of
exploration on how to build speech interaction models based on open-source
LLMs. To address this, we propose LLaMA-Omni, a novel model architecture
designed for low-latency and high-quality speech interaction with LLMs.
LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM,
and a streaming speech decoder. It eliminates the need for speech
transcription, and can simultaneously generate text and speech responses
directly from speech instructions with extremely low latency. We build our
model based on the latest Llama-3.1-8B-Instruct model. To align the model with
speech interaction scenarios, we construct a dataset named InstructS2S-200K,
which includes 200K speech instructions and corresponding speech responses.
Experimental results show that compared to previous speech-language models,
LLaMA-Omni provides better responses in both content and style, with a response
latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3
days on just 4 GPUs, paving the way for the efficient development of
speech-language models in the future.Summary
AI-Generated Summary