미니-옴니: 언어 모델은 스트리밍 중에 듣고 말하며 사고할 수 있습니다.Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
언어 모델의 최근 발전은 상당한 진전을 이루었습니다. GPT-4o는 새로운 이정표로서 실시간 대화를 통해 인간들과의 자연스러운 유창성을 보여주며 중요한 발전을 이루었습니다. 이러한 인간-컴퓨터 상호작용은 음성 모드에서 직접 추론을 수행하고 스트리밍 출력을 생성할 수 있는 능력을 갖춘 모델이 필요합니다. 그러나 현재의 학술적 모델은 일반적으로 음성 합성을 위해 추가 TTS 시스템에 의존하므로 원치 않는 지연이 발생합니다. 본 논문에서는 실시간 음성 상호작용이 가능한 오디오 기반 엔드 투 엔드 대화 모델인 Mini-Omni을 소개합니다. 이 능력을 달성하기 위해 우리는 텍스트 지시 음성 생성 방법을 제안하며 추론 중 배치-병렬 전략을 통해 성능을 더욱 향상시킵니다. 우리의 방법은 또한 최소한의 저하로 원래 모델의 언어 능력을 유지하고 다른 작업이 실시간 상호작용 능력을 확립할 수 있도록 돕습니다. 이 교육 방법을 "Any Model Can Talk"이라고 부릅니다. 또한 음성 출력에 최적화된 모델을 세밀하게 조정하기 위한 VoiceAssistant-400K 데이터셋을 소개합니다. 우리의 최고 지식으로, Mini-Omni은 미래 연구에 유용한 잠재력을 제공하는 실시간 음성 상호작용을 위한 최초의 완전한 엔드 투 엔드, 오픈 소스 모델입니다.