Mini-Omni: Sprachmodelle können hören, sprechen und dabei in Echtzeit denken.
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
August 29, 2024
Autoren: Zhifei Xie, Changqiao Wu
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Sprachmodellen signifikante Fortschritte erzielt. GPT-4o hat als neuer Meilenstein Echtzeitgespräche mit Menschen ermöglicht und eine natürliche Flüssigkeit erreicht, die der von Menschen nahekommt. Eine solche Mensch-Computer-Interaktion erfordert Modelle mit der Fähigkeit, direkt mit der Audio-Modalität zu argumentieren und Ausgaben im Streaming zu generieren. Dies liegt jedoch noch außerhalb der Reichweite aktueller akademischer Modelle, da sie in der Regel auf zusätzlichen TTS-Systemen zur Sprachsynthese basieren, was zu unerwünschter Latenz führt. Dieser Artikel stellt das Mini-Omni vor, ein audio-basiertes End-to-End-Konversationsmodell, das in der Lage ist, Echtzeit-Sprachinteraktionen durchzuführen. Um diese Fähigkeit zu erreichen, schlagen wir eine textgesteuerte Spracherzeugungsmethode vor, zusammen mit Stapel-Parallelstrategien während der Inferenz, um die Leistung weiter zu steigern. Unsere Methode hilft auch dabei, die sprachlichen Fähigkeiten des ursprünglichen Modells mit minimaler Verschlechterung beizubehalten, was es anderen Arbeiten ermöglicht, Echtzeit-Interaktionsfähigkeiten zu etablieren. Wir nennen diese Schulungsmethode "Any Model Can Talk". Wir stellen auch den VoiceAssistant-400K-Datensatz vor, um Modelle für Sprachausgaben zu optimieren. Unseres Wissens nach ist Mini-Omni das erste vollständig end-to-end, Open-Source-Modell für Echtzeit-Sprachinteraktion, das wertvolles Potenzial für zukünftige Forschung bietet.
English
Recent advances in language models have achieved significant progress.
GPT-4o, as a new milestone, has enabled real-time conversations with humans,
demonstrating near-human natural fluency. Such human-computer interaction
necessitates models with the capability to perform reasoning directly with the
audio modality and generate output in streaming. However, this remains beyond
the reach of current academic models, as they typically depend on extra TTS
systems for speech synthesis, resulting in undesirable latency. This paper
introduces the Mini-Omni, an audio-based end-to-end conversational model,
capable of real-time speech interaction. To achieve this capability, we propose
a text-instructed speech generation method, along with batch-parallel
strategies during inference to further boost the performance. Our method also
helps to retain the original model's language capabilities with minimal
degradation, enabling other works to establish real-time interaction
capabilities. We call this training method "Any Model Can Talk". We also
introduce the VoiceAssistant-400K dataset to fine-tune models optimized for
speech output. To our best knowledge, Mini-Omni is the first fully end-to-end,
open-source model for real-time speech interaction, offering valuable potential
for future research.Summary
AI-Generated Summary