Mini-Omni: Sprachmodelle können hören, sprechen und dabei in Echtzeit denken.Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
In jüngster Zeit haben Fortschritte bei Sprachmodellen signifikante Fortschritte erzielt. GPT-4o hat als neuer Meilenstein Echtzeitgespräche mit Menschen ermöglicht und eine natürliche Flüssigkeit erreicht, die der von Menschen nahekommt. Eine solche Mensch-Computer-Interaktion erfordert Modelle mit der Fähigkeit, direkt mit der Audio-Modalität zu argumentieren und Ausgaben im Streaming zu generieren. Dies liegt jedoch noch außerhalb der Reichweite aktueller akademischer Modelle, da sie in der Regel auf zusätzlichen TTS-Systemen zur Sprachsynthese basieren, was zu unerwünschter Latenz führt. Dieser Artikel stellt das Mini-Omni vor, ein audio-basiertes End-to-End-Konversationsmodell, das in der Lage ist, Echtzeit-Sprachinteraktionen durchzuführen. Um diese Fähigkeit zu erreichen, schlagen wir eine textgesteuerte Spracherzeugungsmethode vor, zusammen mit Stapel-Parallelstrategien während der Inferenz, um die Leistung weiter zu steigern. Unsere Methode hilft auch dabei, die sprachlichen Fähigkeiten des ursprünglichen Modells mit minimaler Verschlechterung beizubehalten, was es anderen Arbeiten ermöglicht, Echtzeit-Interaktionsfähigkeiten zu etablieren. Wir nennen diese Schulungsmethode "Any Model Can Talk". Wir stellen auch den VoiceAssistant-400K-Datensatz vor, um Modelle für Sprachausgaben zu optimieren. Unseres Wissens nach ist Mini-Omni das erste vollständig end-to-end, Open-Source-Modell für Echtzeit-Sprachinteraktion, das wertvolles Potenzial für zukünftige Forschung bietet.