Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Da Large Language Models (LLMs) in verschiedenen Bereichen zunehmend an Bedeutung gewinnen, bleiben dennoch folgende Herausforderungen bei der Beschleunigung der LLM-Inferenz ungelöst: (1) Synchronisierte partielle Softmax-Aktualisierung. Die Softmax-Operation erfordert eine synchronisierte Aktualisierung zwischen jedem partiellen Softmax-Ergebnis, was zu einem Overhead von ~20 % für die Aufmerksamkeitsberechnung in LLMs führt. (2) Unterausgelastete Berechnung von flachen GEMMs. Die Form der Matrizen, die GEMM in der LLM-Inferenz durchführen, ist flach, was zu einer unterausgelasteten Berechnung und einem Leistungsverlust von >50 % nach dem Auffüllen mit Nullen in früheren Designs führt. (3) Leistungsverlust durch statischen Datenfluss. Die Kernel-Leistung in LLMs hängt von verschiedenen Eingabedatenmerkmalen, Hardware-Konfigurationen usw. ab. Ein einzelner und statischer Datenfluss kann zu einem Leistungsverlust von 50,25 % für GEMMs unterschiedlicher Formen in der LLM-Inferenz führen. Wir präsentieren FlashDecoding++, eine schnelle LLM-Inferenz-Engine, die Mainstream-LLMs und Hardware-Backends unterstützt. Um die oben genannten Herausforderungen zu bewältigen, schlägt FlashDecoding++ kreativ vor: (1) Asynchronisierte Softmax mit einheitlichem Maximalwert. FlashDecoding++ führt eine Technik des einheitlichen Maximalwerts für verschiedene partielle Softmax-Berechnungen ein, um Synchronisation zu vermeiden. (2) Optimierung von flachen GEMMs mit Double Buffering. FlashDecoding++ weist darauf hin, dass flache GEMMs unterschiedlicher Formen auf verschiedene Engpässe stoßen. Anschließend werden Techniken wie Double Buffering eingeführt. (3) Heuristischer Datenfluss mit Hardware-Ressourcenanpassung. FlashDecoding++ optimiert den Datenfluss heuristisch unter Berücksichtigung der Dynamik der Eingaben und der verschiedenen Hardware-Ressourcen. Aufgrund der Vielseitigkeit der Optimierungen in FlashDecoding++ kann FlashDecoding++ eine Beschleunigung von bis zu 4,86x und 2,18x auf NVIDIA- und AMD-GPUs im Vergleich zu Hugging-Face-Implementierungen erreichen. FlashDecoding++ erzielt auch eine durchschnittliche Beschleunigung von 1,37x im Vergleich zu state-of-the-art LLM-Inferenz-Engines auf Mainstream-LLMs.
Wir präsentieren RoboGen, einen generativen Roboter-Agenten, der automatisch vielfältige robotische Fähigkeiten in großem Maßstab durch generative Simulation erlernt. RoboGen nutzt die neuesten Fortschritte in Foundation- und generativen Modellen. Anstatt diese Modelle direkt zu verwenden oder anzupassen, um Richtlinien oder Low-Level-Aktionen zu erzeugen, befürworten wir ein generatives Schema, das diese Modelle verwendet, um automatisch diversifizierte Aufgaben, Szenen und Trainingsüberwachungen zu generieren und so das Erlernen robotischer Fähigkeiten mit minimaler menschlicher Aufsicht zu skalieren. Unser Ansatz stattet einen Roboter-Agenten mit einem selbstgesteuerten Vorschlagen-Generieren-Lernen-Zyklus aus: Der Agent schlägt zunächst interessante Aufgaben und Fähigkeiten zur Entwicklung vor und generiert dann entsprechende Simulationsumgebungen, indem er relevante Objekte und Assets mit geeigneten räumlichen Konfigurationen bevölkert. Anschließend zerlegt der Agent die vorgeschlagene High-Level-Aufgabe in Teilaufgaben, wählt den optimalen Lernansatz (Bestärkendes Lernen, Bewegungsplanung oder Trajektorienoptimierung), generiert die erforderliche Trainingsüberwachung und lernt dann Richtlinien, um die vorgeschlagene Fähigkeit zu erwerben. Unsere Arbeit versucht, das umfangreiche und vielseitige Wissen, das in großskaligen Modellen eingebettet ist, zu extrahieren und auf das Feld der Robotik zu übertragen. Unsere vollständig generative Pipeline kann wiederholt abgefragt werden und erzeugt einen endlosen Strom von Fähigkeitsdemonstrationen, die mit diversen Aufgaben und Umgebungen verbunden sind.
Wir schlagen einen neuen Ansatz für generatives Modellieren vor, der darauf basiert, ein neuronales Netzwerk so zu trainieren, dass es idempotent ist. Ein idempotenter Operator ist einer, der sequenziell angewendet werden kann, ohne das Ergebnis über die erste Anwendung hinaus zu verändern, d.h. f(f(z))=f(z). Das vorgeschlagene Modell f wird trainiert, um eine Quellverteilung (z.B. Gaußsches Rauschen) auf eine Zielverteilung (z.B. realistische Bilder) abzubilden, wobei die folgenden Ziele verfolgt werden: (1) Instanzen aus der Zielverteilung sollten auf sich selbst abgebildet werden, d.h. f(x)=x. Wir definieren die Zielmannigfaltigkeit als die Menge aller Instanzen, die f auf sich selbst abbildet. (2) Instanzen, die die Quellverteilung bilden, sollten auf die definierte Zielmannigfaltigkeit abgebildet werden. Dies wird durch die Optimierung des Idempotenzterms f(f(z))=f(z) erreicht, der den Wertebereich von f(z) dazu anregt, auf der Zielmannigfaltigkeit zu liegen. Unter idealen Annahmen konvergiert ein solcher Prozess nachweislich gegen die Zielverteilung. Diese Strategie führt zu einem Modell, das in der Lage ist, eine Ausgabe in einem Schritt zu generieren, einen konsistenten latenten Raum beizubehalten und gleichzeitig sequenzielle Anwendungen zur Verfeinerung zu ermöglichen. Zusätzlich stellen wir fest, dass das Modell durch die Verarbeitung von Eingaben aus sowohl der Ziel- als auch der Quellverteilung geschickt beschädigte oder modifizierte Daten zurück auf die Zielmannigfaltigkeit projiziert. Diese Arbeit ist ein erster Schritt hin zu einem „globalen Projektor“, der es ermöglicht, jede Eingabe in eine Zieldatenverteilung zu projizieren.
Wir schlagen Easy End-to-End Diffusion-based Text to Speech vor, ein einfaches und effizientes End-to-End-Text-zu-Sprache-Modell, das auf Diffusion basiert. E3 TTS nimmt direkt Klartext als Eingabe und erzeugt ein Audiowellenform durch einen iterativen Verfeinerungsprozess. Im Gegensatz zu vielen früheren Arbeiten verlässt sich E3 TTS nicht auf Zwischenrepräsentationen wie Spektrogrammmerkmale oder Ausrichtungsinformationen. Stattdessen modelliert E3 TTS die zeitliche Struktur der Wellenform durch den Diffusionsprozess. Ohne sich auf zusätzliche Konditionierungsinformationen zu stützen, kann E3 TTS flexible latente Strukturen innerhalb der gegebenen Audiodaten unterstützen. Dies ermöglicht es E3 TTS, leicht für Zero-Shot-Aufgaben wie Bearbeitungen ohne zusätzliches Training angepasst zu werden. Experimente zeigen, dass E3 TTS hochwertige Audio erzeugen kann, was die Leistung eines modernen neuronalen TTS-Systems erreicht. Audiobeispiele sind unter https://e3tts.github.io verfügbar.
Der Verteilungsshift stellt eine zentrale Herausforderung bei der Bereitstellung von maschinellen Lernmodellen dar, da diese oft nicht für reale Daten geeignet sind. Dies zeigt sich besonders deutlich bei der Text-zu-Audio-Generierung, bei der die kodierten Darstellungen leicht durch unbekannte Eingabeaufforderungen beeinträchtigt werden, was zu einer Verschlechterung des generierten Audios führt. Die begrenzte Menge an Text-Audio-Paaren bleibt für die bedingte Audio-Generierung in der Praxis unzureichend, da Benutzereingaben oft unzureichend spezifiziert sind. Insbesondere beobachten wir eine konsistente Qualitätsverschlechterung bei generierten Audio-Samples mit Benutzereingaben im Vergleich zu Eingabeaufforderungen aus dem Trainingsdatensatz. Zu diesem Zweck präsentieren wir ein retrieval-basiertes In-Context-Prompt-Editing-Framework, das die Trainingsbeschreibungen als demonstrative Beispiele nutzt, um die Benutzereingaben zu überarbeiten. Wir zeigen, dass das Framework die Audioqualität über die gesammelten Benutzereingaben hinweg verbessert hat, die unter Bezugnahme auf die Trainingsbeschreibungen als Beispiele bearbeitet wurden.
Wir präsentieren ein skalierbares, bottom-up und intrinsisch diversifiziertes Datenerfassungsschema, das für hochrangiges Denken mit langen und mittleren Zeithorizonten verwendet werden kann und einen 2,2-fach höheren Durchsatz im Vergleich zu traditionellen, eng gefassten top-down Schritt-für-Schritt-Erfassungsmethoden aufweist. Wir sammeln realistische Daten, indem wir Benutzeranfragen innerhalb von drei kompletten Bürogebäuden ausführen und dabei mehrere Roboter- und menschliche Embodiments verwenden. Mit diesen Daten zeigen wir, dass Modelle, die auf allen Embodiments trainiert wurden, besser abschneiden als solche, die nur auf Roboter-Daten trainiert wurden, selbst wenn sie ausschließlich anhand von Roboter-Episoden bewertet werden. Wir stellen fest, dass es bei einem festen Erfassungsbudget vorteilhaft ist, kostengünstigere menschliche Erfassung in Kombination mit Roboter-Erfassung zu nutzen. Wir veröffentlichen einen großen und hochgradig diversifizierten Datensatz (29.520 einzigartige Anweisungen) namens RoboVQA, der 829.502 (Video, Text)-Paare für visuelles Frage-Antworten mit Fokus auf Robotik enthält. Wir zeigen auch, wie die Bewertung von realen Roboter-Experimenten mit einem Interventionsmechanismus die Durchführung von Aufgaben bis zum Abschluss ermöglicht, was eine Einsatzfähigkeit mit menschlicher Aufsicht auch bei Unvollkommenheiten gewährleistet und gleichzeitig eine einzige Leistungsmetrik liefert. Wir demonstrieren ein einzelnes videobasiertes Modell namens RoboVQA-VideoCoCa, das auf unserem Datensatz trainiert wurde und in der Lage ist, eine Vielzahl von fundierten hochrangigen Denkaufgaben in breiten realistischen Umgebungen durchzuführen, mit einer kognitiven Interventionsrate, die 46 % niedriger ist als der Zero-Shot State-of-the-Art Visual Language Model (VLM)-Baseline, und das in der Lage ist, echte Roboter durch langfristige Aufgaben zu führen. Die Leistungslücke zu Zero-Shot State-of-the-Art-Modellen deutet darauf hin, dass noch viele fundierte Daten für den Einsatz in der realen Welt gesammelt werden müssen, was die kritische Notwendigkeit skalierbarer Datenerfassungsansätze unterstreicht. Schließlich zeigen wir, dass Video-VLMs Einzelbild-VLMs signifikant übertreffen, mit einer durchschnittlichen Fehlerratenreduktion von 19 % über alle VQA-Aufgaben hinweg. Daten und Videos sind verfügbar unter https://robovqa.github.io.