Mini-Omni: Taalmodellen kunnen horen, praten en tegelijkertijd denken in streaming
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
August 29, 2024
Auteurs: Zhifei Xie, Changqiao Wu
cs.AI
Samenvatting
Recente ontwikkelingen in taalmodellen hebben aanzienlijke vooruitgang geboekt.
GPT-4o, als een nieuwe mijlpaal, heeft realtime gesprekken met mensen mogelijk gemaakt,
waarbij het bijna menselijke natuurlijke vlotheid demonstreert. Dergelijke mens-computerinteractie
vereist modellen met de mogelijkheid om direct redenering uit te voeren met de
audiomodus en uitvoer in realtime te genereren. Dit blijft echter buiten het bereik
van huidige academische modellen, aangezien deze doorgaans afhankelijk zijn van extra TTS-systemen
voor spraaksynthese, wat resulteert in ongewenste latentie. Dit artikel introduceert
Mini-Omni, een op audio gebaseerd end-to-end conversatiemodel,
in staat tot realtime spraakinteractie. Om deze mogelijkheid te bereiken, stellen we
een tekst-geïnstrueerde spraakgeneratiemethode voor, samen met batch-parallelle
strategieën tijdens de inferentie om de prestaties verder te verbeteren. Onze methode helpt ook
om de taalvaardigheden van het oorspronkelijke model te behouden met minimale
achteruitgang, waardoor andere werken realtime interactiecapaciteiten kunnen ontwikkelen.
We noemen deze trainingsmethode "Any Model Can Talk". We introduceren ook
het VoiceAssistant-400K-dataset om modellen te fine-tunen die zijn geoptimaliseerd voor
spraakuitvoer. Voor zover wij weten, is Mini-Omni het eerste volledig end-to-end,
open-source model voor realtime spraakinteractie, dat waardevol potentieel biedt
voor toekomstig onderzoek.
English
Recent advances in language models have achieved significant progress.
GPT-4o, as a new milestone, has enabled real-time conversations with humans,
demonstrating near-human natural fluency. Such human-computer interaction
necessitates models with the capability to perform reasoning directly with the
audio modality and generate output in streaming. However, this remains beyond
the reach of current academic models, as they typically depend on extra TTS
systems for speech synthesis, resulting in undesirable latency. This paper
introduces the Mini-Omni, an audio-based end-to-end conversational model,
capable of real-time speech interaction. To achieve this capability, we propose
a text-instructed speech generation method, along with batch-parallel
strategies during inference to further boost the performance. Our method also
helps to retain the original model's language capabilities with minimal
degradation, enabling other works to establish real-time interaction
capabilities. We call this training method "Any Model Can Talk". We also
introduce the VoiceAssistant-400K dataset to fine-tune models optimized for
speech output. To our best knowledge, Mini-Omni is the first fully end-to-end,
open-source model for real-time speech interaction, offering valuable potential
for future research.Summary
AI-Generated Summary