Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mit zunehmender Größe vortrainierter Spracherkennungsmodelle wird der Einsatz dieser großen Modelle in Umgebungen mit geringer Latenz oder begrenzten Ressourcen zunehmend herausfordernd. In dieser Arbeit nutzen wir Pseudo-Labeling, um einen umfangreichen Open-Source-Datensatz zusammenzustellen, den wir verwenden, um das Whisper-Modell in eine kleinere Variante, genannt Distil-Whisper, zu destillieren. Mithilfe einer einfachen Heuristik basierend auf der Wortfehlerrate (WER) wählen wir nur die qualitativ hochwertigsten Pseudo-Labels für das Training aus. Das destillierte Modell ist 5,8-mal schneller und verfügt über 51 % weniger Parameter, während es in einem Zero-Shot-Transfer-Szenario auf Out-of-Distribution-Testdaten eine WER innerhalb von 1 % des Originalmodells erreicht. Distil-Whisper bewahrt die Robustheit des Whisper-Modells gegenüber schwierigen akustischen Bedingungen, ist jedoch weniger anfällig für Halluzinationsfehler bei langen Audioaufnahmen. Distil-Whisper ist darauf ausgelegt, mit Whisper für spekulative Dekodierung kombiniert zu werden, was eine Beschleunigung um das 2-fache ermöglicht, während mathematisch sichergestellt wird, dass die Ausgaben mit denen des Originalmodells übereinstimmen. Um weitere Forschungen in diesem Bereich zu fördern, stellen wir unseren Trainingscode, Inferenzcode und die Modelle öffentlich zur Verfügung.
LLaVA-Interactive ist ein Forschungsexemplar für multimodale Mensch-KI-Interaktion. Das System kann mehrschrittige Dialoge mit menschlichen Nutzern führen, indem es multimodale Benutzereingaben verarbeitet und multimodale Antworten generiert. Besonders hervorzuheben ist, dass LLaVA-Interactive über Sprachaufforderungen hinausgeht, indem visuelle Aufforderungen ermöglicht werden, um die Absichten des Menschen in der Interaktion auszurichten. Die Entwicklung von LLaVA-Interactive ist äußerst kosteneffizient, da das System drei multimodale Fähigkeiten vorgefertigter KI-Modelle ohne zusätzliches Modelltraining kombiniert: den visuellen Chat von LLaVA, die Bildsegmentierung von SEEM sowie die Bildgenerierung und -bearbeitung von GLIGEN. Eine Vielzahl von Anwendungsszenarien wird präsentiert, um das Potenzial von LLaVA-Interactive zu demonstrieren und zukünftige Forschungen im Bereich multimodaler interaktiver Systeme zu inspirieren.
Wir zeigen, wie die bedingte Generierung aus Diffusionsmodellen genutzt werden kann, um eine Vielzahl realistischer Aufgaben in der Produktion von Musik in 44,1 kHz Stereo-Audio mit Sampling-Zeit-Führung zu bewältigen. Die Szenarien, die wir betrachten, umfassen die Fortsetzung, Inpainting und Regeneration von musikalischem Audio, die Erstellung von fließenden Übergängen zwischen zwei verschiedenen Musikstücken sowie die Übertragung gewünschter stilistischer Merkmale auf bestehende Audioclips. Dies erreichen wir durch die Anwendung von Führung zur Sampling-Zeit in einem einfachen Framework, das sowohl Rekonstruktions- als auch Klassifikationsverluste oder jede Kombination der beiden unterstützt. Dieser Ansatz stellt sicher, dass generiertes Audio seinen umgebenden Kontext widerspiegeln oder einer Klassenverteilung oder latenten Darstellung entsprechen kann, die relativ zu einem geeigneten vortrainierten Klassifikator oder Einbettungsmodell spezifiziert ist.
Wir demonstrieren Text als eine starke cross-modale Schnittstelle. Anstatt uns auf tiefe Embeddings zu verlassen, um Bild und Sprache als Schnittstellendarstellung zu verbinden, repräsentiert unser Ansatz ein Bild als Text, wodurch wir die Interpretierbarkeit und Flexibilität nutzen können, die der natürlichen Sprache innewohnen. Wir verwenden einen Autoencoder, der ein vortrainiertes Text-zu-Bild-Diffusionsmodell für die Decodierung nutzt. Der Encoder wird trainiert, um ein Eingabebild in Text zu transformieren, der dann in den festen Text-zu-Bild-Diffusions-Decoder eingespeist wird, um das ursprüngliche Eingabebild zu rekonstruieren – einen Prozess, den wir als De-Diffusion bezeichnen. Experimente bestätigen sowohl die Präzision als auch die Vollständigkeit des De-Diffusion-Texts bei der Darstellung von Bildern, sodass er problemlos von Standard-Text-zu-Bild-Tools und großen Sprachmodellen (LLMs) für diverse multimodale Aufgaben verwendet werden kann. Beispielsweise kann ein einzelnes De-Diffusion-Modell generalisieren, um übertragbare Prompts für verschiedene Text-zu-Bild-Tools bereitzustellen, und erreicht auch einen neuen Stand der Technik bei offenen Vision-Sprache-Aufgaben, indem einfach große Sprachmodelle mit Few-Shot-Beispielen gepromptet werden.
Die jüngste Welle generativer KI hat eine beispiellose globale Aufmerksamkeit erregt, sowohl Begeisterung als auch Besorgnis über potenziell übermenschliche Fähigkeiten künstlicher Intelligenz: Modelle benötigen heute nur Sekunden, um Ergebnisse zu erzeugen, die selbst die Fähigkeiten von Experten herausfordern oder übertreffen würden. Gleichzeitig zeigen Modelle immer noch grundlegende Fehler im Verständnis, die selbst bei Laien nicht zu erwarten wären. Dies stellt uns vor ein scheinbares Paradox: Wie lassen sich scheinbar übermenschliche Fähigkeiten mit dem Fortbestehen von Fehlern vereinbaren, die nur wenige Menschen machen würden? In dieser Arbeit postulieren wir, dass diese Spannung eine Divergenz in der Konfiguration von Intelligenz in heutigen generativen Modellen im Vergleich zur menschlichen Intelligenz widerspiegelt. Konkret schlagen wir die Hypothese des Generativen-KI-Paradoxons vor und testen sie: Generative Modelle, die direkt darauf trainiert wurden, expertenähnliche Ergebnisse zu reproduzieren, erwerben generative Fähigkeiten, die nicht von ihrem Verständnis dieser Ergebnisse abhängig sind – und diese daher übertreffen können. Dies steht im Gegensatz zu Menschen, bei denen ein grundlegendes Verständnis fast immer der Fähigkeit vorausgeht, Expertenniveau zu erreichen. Wir testen diese Hypothese durch kontrollierte Experimente, die Erzeugung und Verständnis in generativen Modellen sowohl in sprachlichen als auch bildlichen Modalitäten analysieren. Unsere Ergebnisse zeigen, dass Modelle zwar in der Erzeugung Menschen übertreffen können, sie jedoch durchweg hinter menschlichen Fähigkeiten in Bezug auf Verständnis zurückbleiben, sowie eine schwächere Korrelation zwischen Erzeugungs- und Verständnisleistung und eine größere Anfälligkeit für adversariale Eingaben aufweisen. Unsere Ergebnisse stützen die Hypothese, dass die generative Fähigkeit von Modellen möglicherweise nicht von ihrer Verständnisfähigkeit abhängig ist, und mahnen zur Vorsicht bei der Interpretation künstlicher Intelligenz durch Analogien zur menschlichen Intelligenz.
Pixel-basierte Sprachmodelle verarbeiten Text, der als Bild dargestellt wird, was es ihnen ermöglicht, jede Schriftart zu handhaben und sie zu einem vielversprechenden Ansatz für die Modellierung offener Vokabulare macht. Allerdings verwenden aktuelle Ansätze Text-Renderer, die eine große Menge von nahezu äquivalenten Eingabe-Patches erzeugen, was aufgrund der Redundanz in den Eingabedarstellungen für nachgelagerte Aufgaben suboptimal sein kann. In diesem Artikel untersuchen wir vier Ansätze zur Darstellung von Text im PIXEL-Modell (Rust et al., 2023) und stellen fest, dass eine einfache Bigramm-Darstellung auf Zeichenebene die Leistung bei Aufgaben auf Satzebene verbessert, ohne die Leistung bei Aufgaben auf Token-Ebene oder in mehrsprachigen Kontexten zu beeinträchtigen. Diese neue Darstellungsstrategie ermöglicht es auch, ein kompakteres Modell mit nur 22M Parametern zu trainieren, das mit dem ursprünglichen Modell mit 86M Parametern gleichzieht. Unsere Analysen zeigen, dass die Bigramm-Darstellung auf Zeichenebene zu einem durchweg besseren Modell führt, jedoch mit einem anisotropen Patch-Einbettungsraum, der durch eine Verzerrung in der Patch-Häufigkeit getrieben wird. Dies unterstreicht die Verbindungen zwischen bildbasierten Patch- und tokenbasierten Sprachmodellen.
Große Sprachmodelle haben gute Leistungen bei der Generierung von Code gezeigt, um menschliche Anforderungen zu erfüllen. Allerdings können menschliche Anforderungen, die in natürlicher Sprache ausgedrückt werden, vage, unvollständig und mehrdeutig sein, was dazu führt, dass große Sprachmodelle menschliche Anforderungen missverstehen und Fehler machen. Schlimmer noch, es ist für einen menschlichen Benutzer schwierig, die Anforderung zu verfeinern. Um menschlichen Benutzern zu helfen, ihre Anforderungen zu verfeinern und die Code-Generierungsleistungen großer Sprachmodelle zu verbessern, schlagen wir ChatCoder vor: eine Methode zur Verfeinerung der Anforderungen durch das Chatten mit großen Sprachmodellen. Wir entwerfen ein Chat-Schema, in dem die großen Sprachmodelle die menschlichen Benutzer dazu anleiten, ihre Ausdrucksweise der Anforderungen präziser, eindeutiger und vollständiger zu gestalten als zuvor. Experimente zeigen, dass ChatCoder die Leistung bestehender großer Sprachmodelle erheblich verbessert hat. Darüber hinaus hat ChatCoder Vorteile gegenüber verfeinerungsbasierten Methoden und Sprachmodellen, die über menschliche Antworten feinabgestimmt wurden.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei verschiedenen Downstream-Aufgaben gezeigt. Bei der Ausbildung dieser Modelle besteht eine zunehmende Tendenz, mehr Tokens auf größeren Trainingsskalen zu verarbeiten, jedoch mit relativ kleineren Modellgrößen. Der Zero Redundancy Optimizer (ZeRO), obwohl effektiv in konventionellen Trainingsumgebungen, hat Schwierigkeiten mit Skalierungsproblemen, wenn er mit diesem aufkommenden Paradigma konfrontiert wird. Zu diesem Zweck schlagen wir ein neuartiges LLM-Trainingsframework AMSP vor, das eine granulare Partitionierung der Modellzustände vornimmt, einschließlich Parameter (P), Gradienten (G) und Optimiererzustände (OS). Insbesondere (1) erstellt AMSP einen einheitlichen Partitionierungsraum, der unabhängige Partitionierungsstrategien für P, G und OS ermöglicht; (2) integriert einen skalenbewussten Partitioner, um autonom nach optimalen Partitionierungsstrategien zu suchen; (3) entwirft einen speziellen Kommunikationsoptimierer, um die effiziente Verwaltung von Datenplatzierungsdiskrepanzen zu gewährleisten, die sich aus verschiedenen Partitionierungsstrategien ergeben. Unsere Auswertungen zeigen, dass AMSP eine Skalierungseffizienz von bis zu 90,3 % über 1024 GPUs erreicht.
Vision-Language-Modelle (VLMs) werden mit großen Mengen an Daten trainiert, die von Menschen erfasst wurden und unser Verständnis der Welt nachahmen. Bekannt als visuelle Illusionen ist die menschliche Wahrnehmung der Realität jedoch nicht immer treu zur physischen Welt. Dies wirft eine zentrale Frage auf: Haben VLMs ähnliche Illusionen wie Menschen, oder lernen sie, die Realität getreu darzustellen? Um diese Frage zu untersuchen, haben wir einen Datensatz erstellt, der fünf Arten von visuellen Illusionen enthält, und vier Aufgaben formuliert, um visuelle Illusionen in state-of-the-art VLMs zu untersuchen. Unsere Ergebnisse zeigen, dass zwar die Gesamtübereinstimmung gering ist, größere Modelle jedoch näher an der menschlichen Wahrnehmung liegen und anfälliger für visuelle Illusionen sind. Unser Datensatz und die ersten Erkenntnisse werden ein besseres Verständnis von visuellen Illusionen bei Menschen und Maschinen fördern und einen Grundstein für zukünftige Computermodelle legen, die eine bessere Abstimmung zwischen Menschen und Maschinen in der Wahrnehmung und Kommunikation über die gemeinsame visuelle Welt ermöglichen. Der Code und die Daten sind unter https://github.com/vl-illusion/dataset verfügbar.