papers.title

Mini-Omni: Sprachmodelle können hören, sprechen und dabei in Echtzeit denken.

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29

ByZhifei Xie, Changqiao Wu

In jüngster Zeit haben Fortschritte bei Sprachmodellen signifikante Fortschritte erzielt. GPT-4o hat als neuer Meilenstein Echtzeitgespräche mit Menschen ermöglicht und eine natürliche Flüssigkeit erreicht, die der von Menschen nahekommt. Eine solche Mensch-Computer-Interaktion erfordert Modelle mit der Fähigkeit, direkt mit der Audio-Modalität zu argumentieren und Ausgaben im Streaming zu generieren. Dies liegt jedoch noch außerhalb der Reichweite aktueller akademischer Modelle, da sie in der Regel auf zusätzlichen TTS-Systemen zur Sprachsynthese basieren, was zu unerwünschter Latenz führt. Dieser Artikel stellt das Mini-Omni vor, ein audio-basiertes End-to-End-Konversationsmodell, das in der Lage ist, Echtzeit-Sprachinteraktionen durchzuführen. Um diese Fähigkeit zu erreichen, schlagen wir eine textgesteuerte Spracherzeugungsmethode vor, zusammen mit Stapel-Parallelstrategien während der Inferenz, um die Leistung weiter zu steigern. Unsere Methode hilft auch dabei, die sprachlichen Fähigkeiten des ursprünglichen Modells mit minimaler Verschlechterung beizubehalten, was es anderen Arbeiten ermöglicht, Echtzeit-Interaktionsfähigkeiten zu etablieren. Wir nennen diese Schulungsmethode "Any Model Can Talk". Wir stellen auch den VoiceAssistant-400K-Datensatz vor, um Modelle für Sprachausgaben zu optimieren. Unseres Wissens nach ist Mini-Omni das erste vollständig end-to-end, Open-Source-Modell für Echtzeit-Sprachinteraktion, das wertvolles Potenzial für zukünftige Forschung bietet.

VisionTS: Visuelle Maskierte Autoencoder sind kostenlose Zero-Shot Zeitreihen-Prognosen.

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30

ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu

Grundlagenmodelle haben sich als vielversprechender Ansatz in der Prognose von Zeitreihen (TSF) herausgestellt. Bestehende Ansätze feinen-tunen entweder große Sprachmodelle (LLMs) oder erstellen umfangreiche Zeitreihendatensätze, um TSF-Grundlagenmodelle zu entwickeln. Diese Methoden stehen jedoch vor Herausforderungen aufgrund der starken domänenübergreifenden Lücke oder der domänenspezifischen Heterogenität. In diesem Paper erkunden wir einen neuen Weg, um ein TSF-Grundlagenmodell aus reichen und qualitativ hochwertigen natürlichen Bildern aufzubauen, basierend auf den intrinsischen Ähnlichkeiten zwischen Bildern und Zeitreihen. Um die Lücke zwischen den beiden Domänen zu überbrücken, formulieren wir die TSF-Aufgabe als Bildrekonstruktionsaufgabe um, die weiterhin von einem visuellen Maskenautoencoder (MAE) verarbeitet wird, der selbstüberwacht auf dem ImageNet-Datensatz vorab trainiert wurde. Überraschenderweise konnte das vorgeschlagene VisionTS ohne weitere Anpassung im Zeitreihenbereich eine überlegene Null-Schuss-Prognoseleistung im Vergleich zu bestehenden TSF-Grundlagenmodellen erzielen. Mit minimalem Feintuning konnte VisionTS die Prognose weiter verbessern und in den meisten Fällen eine Spitzenleistung erzielen. Diese Ergebnisse legen nahe, dass visuelle Modelle ein kostenloser Gewinn für TSF sein könnten und betonen das Potenzial für zukünftige domänenübergreifende Forschung zwischen Computer Vision und TSF. Unser Code ist öffentlich verfügbar unter https://github.com/Keytoyze/VisionTS.

•