ChatPaper.aiChatPaper

Mini-Omni: Taalmodellen kunnen horen, praten en tegelijkertijd denken in streaming

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

August 29, 2024
Auteurs: Zhifei Xie, Changqiao Wu
cs.AI

Samenvatting

Recente ontwikkelingen in taalmodellen hebben aanzienlijke vooruitgang geboekt. GPT-4o, als een nieuwe mijlpaal, heeft realtime gesprekken met mensen mogelijk gemaakt, waarbij het bijna menselijke natuurlijke vlotheid demonstreert. Dergelijke mens-computerinteractie vereist modellen met de mogelijkheid om direct redenering uit te voeren met de audiomodus en uitvoer in realtime te genereren. Dit blijft echter buiten het bereik van huidige academische modellen, aangezien deze doorgaans afhankelijk zijn van extra TTS-systemen voor spraaksynthese, wat resulteert in ongewenste latentie. Dit artikel introduceert Mini-Omni, een op audio gebaseerd end-to-end conversatiemodel, in staat tot realtime spraakinteractie. Om deze mogelijkheid te bereiken, stellen we een tekst-geïnstrueerde spraakgeneratiemethode voor, samen met batch-parallelle strategieën tijdens de inferentie om de prestaties verder te verbeteren. Onze methode helpt ook om de taalvaardigheden van het oorspronkelijke model te behouden met minimale achteruitgang, waardoor andere werken realtime interactiecapaciteiten kunnen ontwikkelen. We noemen deze trainingsmethode "Any Model Can Talk". We introduceren ook het VoiceAssistant-400K-dataset om modellen te fine-tunen die zijn geoptimaliseerd voor spraakuitvoer. Voor zover wij weten, is Mini-Omni het eerste volledig end-to-end, open-source model voor realtime spraakinteractie, dat waardevol potentieel biedt voor toekomstig onderzoek.
English
Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research.

Summary

AI-Generated Summary

PDF546November 16, 2024