미니-옴니: 언어 모델은 스트리밍 중에 듣고 말하며 사고할 수 있습니다.
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
August 29, 2024
저자: Zhifei Xie, Changqiao Wu
cs.AI
초록
언어 모델의 최근 발전은 상당한 진전을 이루었습니다. GPT-4o는 새로운 이정표로서 실시간 대화를 통해 인간들과의 자연스러운 유창성을 보여주며 중요한 발전을 이루었습니다. 이러한 인간-컴퓨터 상호작용은 음성 모드에서 직접 추론을 수행하고 스트리밍 출력을 생성할 수 있는 능력을 갖춘 모델이 필요합니다. 그러나 현재의 학술적 모델은 일반적으로 음성 합성을 위해 추가 TTS 시스템에 의존하므로 원치 않는 지연이 발생합니다. 본 논문에서는 실시간 음성 상호작용이 가능한 오디오 기반 엔드 투 엔드 대화 모델인 Mini-Omni을 소개합니다. 이 능력을 달성하기 위해 우리는 텍스트 지시 음성 생성 방법을 제안하며 추론 중 배치-병렬 전략을 통해 성능을 더욱 향상시킵니다. 우리의 방법은 또한 최소한의 저하로 원래 모델의 언어 능력을 유지하고 다른 작업이 실시간 상호작용 능력을 확립할 수 있도록 돕습니다. 이 교육 방법을 "Any Model Can Talk"이라고 부릅니다. 또한 음성 출력에 최적화된 모델을 세밀하게 조정하기 위한 VoiceAssistant-400K 데이터셋을 소개합니다. 우리의 최고 지식으로, Mini-Omni은 미래 연구에 유용한 잠재력을 제공하는 실시간 음성 상호작용을 위한 최초의 완전한 엔드 투 엔드, 오픈 소스 모델입니다.
English
Recent advances in language models have achieved significant progress.
GPT-4o, as a new milestone, has enabled real-time conversations with humans,
demonstrating near-human natural fluency. Such human-computer interaction
necessitates models with the capability to perform reasoning directly with the
audio modality and generate output in streaming. However, this remains beyond
the reach of current academic models, as they typically depend on extra TTS
systems for speech synthesis, resulting in undesirable latency. This paper
introduces the Mini-Omni, an audio-based end-to-end conversational model,
capable of real-time speech interaction. To achieve this capability, we propose
a text-instructed speech generation method, along with batch-parallel
strategies during inference to further boost the performance. Our method also
helps to retain the original model's language capabilities with minimal
degradation, enabling other works to establish real-time interaction
capabilities. We call this training method "Any Model Can Talk". We also
introduce the VoiceAssistant-400K dataset to fine-tune models optimized for
speech output. To our best knowledge, Mini-Omni is the first fully end-to-end,
open-source model for real-time speech interaction, offering valuable potential
for future research.Summary
AI-Generated Summary