Mini-Omni: Taalmodellen kunnen horen, praten en tegelijkertijd denken in streamingMini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
Recente ontwikkelingen in taalmodellen hebben aanzienlijke vooruitgang geboekt. GPT-4o, als een nieuwe mijlpaal, heeft realtime gesprekken met mensen mogelijk gemaakt, waarbij het bijna menselijke natuurlijke vlotheid demonstreert. Dergelijke mens-computerinteractie vereist modellen met de mogelijkheid om direct redenering uit te voeren met de audiomodus en uitvoer in realtime te genereren. Dit blijft echter buiten het bereik van huidige academische modellen, aangezien deze doorgaans afhankelijk zijn van extra TTS-systemen voor spraaksynthese, wat resulteert in ongewenste latentie. Dit artikel introduceert Mini-Omni, een op audio gebaseerd end-to-end conversatiemodel, in staat tot realtime spraakinteractie. Om deze mogelijkheid te bereiken, stellen we een tekst-geïnstrueerde spraakgeneratiemethode voor, samen met batch-parallelle strategieën tijdens de inferentie om de prestaties verder te verbeteren. Onze methode helpt ook om de taalvaardigheden van het oorspronkelijke model te behouden met minimale achteruitgang, waardoor andere werken realtime interactiecapaciteiten kunnen ontwikkelen. We noemen deze trainingsmethode "Any Model Can Talk". We introduceren ook het VoiceAssistant-400K-dataset om modellen te fine-tunen die zijn geoptimaliseerd voor spraakuitvoer. Voor zover wij weten, is Mini-Omni het eerste volledig end-to-end, open-source model voor realtime spraakinteractie, dat waardevol potentieel biedt voor toekomstig onderzoek.