ChatPaper.aiChatPaper

LLaMA-Omni: 대규모 언어 모델과의 원활한 음성 상호 작용

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

September 10, 2024
저자: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
cs.AI

초록

GPT-4o와 같은 모델은 대규모 언어 모델(LLMs)과의 실시간 상호작용을 음성을 통해 가능하게 하여, 기존의 텍스트 기반 상호작용에 비해 사용자 경험을 크게 향상시킨다. 그러나 오픈 소스 LLMs를 기반으로 음성 상호작용 모델을 구축하는 방법에 대한 탐구가 부족한 상황이다. 이에 대응하기 위해, 저희는 LLaMA-Omni라는 새로운 모델 아키텍처를 제안한다. 이 모델은 LLMs와의 저지연 및 고품질 음성 상호작용을 위해 설계되었다. LLaMA-Omni은 사전 훈련된 음성 인코더, 음성 어댑터, LLM, 및 스트리밍 음성 디코더를 통합한다. 이 모델은 음성 전사가 필요 없으며, 음성 지시로부터 텍스트 및 음성 응답을 극히 낮은 지연 시간으로 동시에 생성할 수 있다. 저희는 최신 Llama-3.1-8B-Instruct 모델을 기반으로 모델을 구축했다. 모델을 음성 상호작용 시나리오에 맞추기 위해 InstructS2S-200K라는 데이터셋을 구축했다. 이 데이터셋은 20만 개의 음성 지시와 해당하는 음성 응답을 포함한다. 실험 결과는, 이전 음성-언어 모델과 비교하여, LLaMA-Omni가 내용과 스타일 모두에서 더 나은 응답을 제공하며, 응답 지연 시간은 226ms로 매우 낮음을 보여준다. 게다가, LLaMA-Omni의 훈련은 4개의 GPU에서 3일 미만이 소요되며, 효율적인 음성-언어 모델의 개발을 위한 길을 열어놓는다.
English
Models like GPT-4o enable real-time interaction with large language models (LLMs) through speech, significantly enhancing user experience compared to traditional text-based interaction. However, there is still a lack of exploration on how to build speech interaction models based on open-source LLMs. To address this, we propose LLaMA-Omni, a novel model architecture designed for low-latency and high-quality speech interaction with LLMs. LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM, and a streaming speech decoder. It eliminates the need for speech transcription, and can simultaneously generate text and speech responses directly from speech instructions with extremely low latency. We build our model based on the latest Llama-3.1-8B-Instruct model. To align the model with speech interaction scenarios, we construct a dataset named InstructS2S-200K, which includes 200K speech instructions and corresponding speech responses. Experimental results show that compared to previous speech-language models, LLaMA-Omni provides better responses in both content and style, with a response latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3 days on just 4 GPUs, paving the way for the efficient development of speech-language models in the future.

Summary

AI-Generated Summary

PDF585November 16, 2024