LLaMA-Omni: 대규모 언어 모델과의 원활한 음성 상호 작용LLaMA-Omni: Seamless Speech Interaction with Large Language Models
GPT-4o와 같은 모델은 대규모 언어 모델(LLMs)과의 실시간 상호작용을 음성을 통해 가능하게 하여, 기존의 텍스트 기반 상호작용에 비해 사용자 경험을 크게 향상시킨다. 그러나 오픈 소스 LLMs를 기반으로 음성 상호작용 모델을 구축하는 방법에 대한 탐구가 부족한 상황이다. 이에 대응하기 위해, 저희는 LLaMA-Omni라는 새로운 모델 아키텍처를 제안한다. 이 모델은 LLMs와의 저지연 및 고품질 음성 상호작용을 위해 설계되었다. LLaMA-Omni은 사전 훈련된 음성 인코더, 음성 어댑터, LLM, 및 스트리밍 음성 디코더를 통합한다. 이 모델은 음성 전사가 필요 없으며, 음성 지시로부터 텍스트 및 음성 응답을 극히 낮은 지연 시간으로 동시에 생성할 수 있다. 저희는 최신 Llama-3.1-8B-Instruct 모델을 기반으로 모델을 구축했다. 모델을 음성 상호작용 시나리오에 맞추기 위해 InstructS2S-200K라는 데이터셋을 구축했다. 이 데이터셋은 20만 개의 음성 지시와 해당하는 음성 응답을 포함한다. 실험 결과는, 이전 음성-언어 모델과 비교하여, LLaMA-Omni가 내용과 스타일 모두에서 더 나은 응답을 제공하며, 응답 지연 시간은 226ms로 매우 낮음을 보여준다. 게다가, LLaMA-Omni의 훈련은 4개의 GPU에서 3일 미만이 소요되며, 효율적인 음성-언어 모델의 개발을 위한 길을 열어놓는다.