Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Llemma vor, ein großes Sprachmodell für Mathematik. Wir setzen das Vortraining von Code Llama auf dem Proof-Pile-2 fort, einer Mischung aus wissenschaftlichen Artikeln, Webdaten mit mathematischem Inhalt und mathematischem Code, wodurch Llemma entsteht. Auf dem MATH-Benchmark übertrifft Llemma alle bekannten offenen Basismodelle sowie die nicht veröffentlichte Minerva-Modellreihe auf einer äquivalenten Parameterbasis. Darüber hinaus ist Llemma in der Lage, Werkzeuge zu nutzen und formale Beweise zu führen, ohne dass zusätzliches Fein-Tuning erforderlich ist. Wir veröffentlichen alle Artefakte offen, einschließlich der Modelle mit 7 Milliarden und 34 Milliarden Parametern, den Proof-Pile-2 sowie den Code zur Reproduktion unserer Experimente.
Große Sprachmodelle (LMs) werden derzeit darauf trainiert, Token basierend auf Dokumentpräfixen vorherzusagen, wodurch sie in der Lage sind, direkt langfristige Generierungsaufgaben und Prompting-Aufgaben zu bewältigen, die auf die Vervollständigung von Dokumenten reduziert werden können. Bestehende Vorverarbeitungspipelines trainieren LMs, indem sie zufällige Sätze kurzer Dokumente verketten, um Eingabekontexte zu erstellen, wobei die vorherigen Dokumente jedoch kein Signal für die Vorhersage des nächsten Dokuments liefern. Stattdessen präsentieren wir In-Context Pretraining, einen neuen Ansatz, bei dem Sprachmodelle auf einer Sequenz verwandter Dokumente vortrainiert werden, wodurch sie explizit dazu angeregt werden, über Dokumentgrenzen hinweg zu lesen und zu schlussfolgern. Wir können In-Context Pretraining durchführen, indem wir einfach die Dokumentreihenfolge so ändern, dass jeder Kontext verwandte Dokumente enthält, und bestehende Vorverarbeitungspipelines direkt anwenden. Dieses Dokumentensortierungsproblem ist jedoch herausfordernd. Es gibt Milliarden von Dokumenten, und wir möchten, dass die Sortierung die kontextuelle Ähnlichkeit für jedes Dokument maximiert, ohne Daten zu wiederholen. Um dies zu erreichen, führen wir approximative Algorithmen ein, um verwandte Dokumente durch effiziente Nearest-Neighbor-Suche zu finden und kohärente Eingabekontexte mit einem Graphtraversal-Algorithmus zu konstruieren. Unsere Experimente zeigen, dass In-Context Pretraining einen einfachen und skalierbaren Ansatz bietet, um die Leistung von LMs signifikant zu verbessern: Wir bemerkenswerte Verbesserungen bei Aufgaben, die komplexeres kontextuelles Denken erfordern, einschließlich In-Context-Lernen (+8%), Leseverständnis (+15%), Treue zu vorherigen Kontexten (+16%), Langzeitkontext-Schlussfolgerung (+5%) und Retrieval-Augmentierung (+9%).
Große Sprachmodelle haben ihre bemerkenswerten Fähigkeiten als allgemeine Schnittstelle für verschiedene sprachbezogene Anwendungen unter Beweis gestellt. Motiviert durch diese Erkenntnis, streben wir an, eine einheitliche Schnittstelle für die Bewältigung zahlreicher Vision-Sprache-Aufgaben zu entwickeln, darunter Bildbeschreibung, visuelle Fragebeantwortung und visuelle Verankerung, um nur einige zu nennen. Die Herausforderung besteht darin, ein einziges Modell effektiv für diverse Vision-Sprache-Aufgaben mit einfachen multimodalen Anweisungen einzusetzen. Um dieses Ziel zu erreichen, stellen wir MiniGPT-v2 vor, ein Modell, das als einheitliche Schnittstelle für die bessere Handhabung verschiedener Vision-Sprache-Aufgaben dienen kann. Wir schlagen vor, bei der Schulung des Modells eindeutige Identifikatoren für verschiedene Aufgaben zu verwenden. Diese Identifikatoren ermöglichen es unserem Modell, jede Aufgabenanweisung mühelos besser zu unterscheiden und verbessern auch die Lernleistung des Modells für jede Aufgabe. Nach dem dreistufigen Trainingsprozess zeigen die experimentellen Ergebnisse, dass MiniGPT-v2 im Vergleich zu anderen allgemeinen Vision-Sprache-Modellen eine starke Leistung auf vielen Benchmarks für visuelle Fragebeantwortung und visuelle Verankerung erzielt. Unser Modell und die Codes sind unter https://minigpt-v2.github.io/ verfügbar.
Ein interaktives Robotik-Framework ermöglicht die Planung langfristiger Aufgaben und kann sich leicht auf neue Ziele oder unterschiedliche Aufgaben verallgemeinern, sogar während der Ausführung. Die meisten traditionellen Methoden erfordern jedoch ein vordefiniertes Moduldesign, was die Verallgemeinerung auf verschiedene Ziele erschwert. Neuere Ansätze, die auf großen Sprachmodellen basieren, ermöglichen zwar eine offenere Planung, erfordern jedoch oft aufwendiges Prompt-Engineering oder domänenspezifisch vortrainierte Modelle. Um dies zu bewältigen, schlagen wir ein einfaches Framework vor, das interaktive Aufgabenplanung mit Sprachmodellen realisiert. Unser System integriert sowohl hochrangige Planung als auch niederrangige Funktionsausführung über Sprache. Wir überprüfen die Robustheit unseres Systems bei der Generierung neuartiger hochrangiger Anweisungen für unbekannte Ziele und seine einfache Anpassung an verschiedene Aufgaben durch den bloßen Austausch der Aufgabenrichtlinien, ohne zusätzliches komplexes Prompt-Engineering. Darüber hinaus kann unser System bei einer neuen Benutzeranfrage präzise neu planen, basierend auf der neuen Anfrage, den Aufgabenrichtlinien und den zuvor ausgeführten Schritten. Weitere Details finden Sie auf unserer Website https://wuphilipp.github.io/itp_site und https://youtu.be/TrKLuyv26_g.
Während große Sprachmodelle in einer Vielzahl von Downstream-Anwendungen effektiv sind, erzeugen sie oft Text, der problematisch ist oder eine gewünschte Eigenschaft vermissen lässt. In diesem Artikel stellen wir Reward-Augmented Decoding (RAD) vor, ein Textgenerierungsverfahren, das ein kleines unidirektionales Belohnungsmodell verwendet, um ein Sprachmodell dazu zu animieren, Text mit bestimmten Eigenschaften zu erzeugen. Konkret nutzt RAD das Belohnungsmodell, um Generierungen während ihrer Erstellung zu bewerten und passt die Sampling-Wahrscheinlichkeiten an, um Token mit hoher Belohnung zu bevorzugen. Durch die Verwendung eines unidirektionalen Belohnungsmodells kann RAD Aktivierungen aus vorherigen Generierungsschritten zwischenspeichern, um den Rechenaufwand zu verringern. Durch Experimente zur Erzeugung von nicht-toxischem und sentimentgesteuertem Text zeigen wir, dass RAD unter den Methoden, die nur das Generierungsverfahren ändern, am besten abschneidet und mit der Leistung modernster Methoden, die eine Neuanpassung des Sprachmodells erfordern, mithalten kann. Wir validieren weiterhin, dass RAD bei sehr großen Sprachmodellen effektiv ist, während es nur einen minimalen Rechenaufwand verursacht.
Wir sind daran interessiert, visuelle Planung für komplexe Aufgaben mit langem Zeithorizont im Bereich generierter Videos und Sprache zu ermöglichen, indem wir jüngste Fortschritte bei großen generativen Modellen nutzen, die auf Internet-großen Daten vortrainiert wurden. Zu diesem Zweck stellen wir Video Language Planning (VLP) vor, einen Algorithmus, der aus einem Baum-Suchverfahren besteht, bei dem wir (i) Vision-Sprache-Modelle trainieren, die sowohl als Richtlinien als auch als Wertfunktionen dienen, und (ii) Text-zu-Video-Modelle als Dynamikmodelle. VLP nimmt als Eingabe eine langfristige Aufgabenanweisung und die aktuelle Bildbeobachtung und gibt einen langen Video-Plan aus, der detaillierte multimodale (Video und Sprache) Spezifikationen liefert, die beschreiben, wie die endgültige Aufgabe zu erledigen ist. VLP skaliert mit zunehmendem Rechenbudget, wobei mehr Rechenzeit zu verbesserten Video-Plänen führt, und ist in der Lage, langfristige Video-Pläne über verschiedene Robotikdomänen hinweg zu synthetisieren: von der Neuordnung mehrerer Objekte bis zur geschickten Manipulation mit mehreren Kameras und zwei Armen. Generierte Video-Pläne können über zielbedingte Richtlinien in reale Roboteraktionen übersetzt werden, die auf jedem Zwischenbild des generierten Videos basieren. Experimente zeigen, dass VLP die Erfolgsraten bei langfristigen Aufgaben im Vergleich zu früheren Methoden sowohl bei simulierten als auch bei echten Robotern (über 3 Hardware-Plattformen hinweg) erheblich verbessert.
Wir untersuchen Data Distillation für autoregressive Machine-Learning-Aufgaben, bei denen die Eingabe und Ausgabe eine strikte links-nach-rechts-Kausalstruktur aufweisen. Genauer gesagt schlagen wir Farzi vor, das ein Ereignissequenz-Datensatz in eine kleine Anzahl synthetischer Sequenzen – Farzi Data – zusammenfasst, die so optimiert sind, dass die Modellleistung im Vergleich zum Training auf dem vollständigen Datensatz erhalten (wenn nicht sogar verbessert) wird. Im Kern führt Farzi speichereffiziente Data Distillation durch, indem (i) eine effiziente Reverse-Mode-Differenzierung des Adam-Optimierers durch die Nutzung von Hessian-Vector-Produkten abgeleitet wird; und (ii) der hochdimensionale diskrete Ereignisraum in einen latenten Raum faktorisiert wird, der nachweislich implizite Regularisierung fördert. Empirisch erreichen wir für sequenzielle Empfehlungs- und Sprachmodellierungsaufgaben 98-120 % der Downstream-Leistung des vollständigen Datensatzes, wenn State-of-the-Art-Modelle auf Farzi Data trainiert werden, das nur 0,1 % der Größe des ursprünglichen Datensatzes beträgt. Bemerkenswerterweise wirft die Möglichkeit, bessere Modelle mit deutlich weniger Daten zu trainieren, ein Licht auf die Gestaltung zukünftiger großer autoregressiver Modelle und eröffnet neue Möglichkeiten, Modell- und Datengrößen weiter zu skalieren.
Schmale Bitbreiten-Datenformate sind entscheidend, um die Rechen- und Speicherkosten moderner Deep-Learning-Anwendungen zu reduzieren. Diese Arbeit evaluiert Microscaling (MX)-Datenformate, die einen pro Block skalierten Faktor mit schmalen Gleitkomma- und Ganzzahltypen für einzelne Elemente kombinieren. MX-Formate balancieren die konkurrierenden Anforderungen an Hardwareeffizienz, Modellgenauigkeit und Benutzerfreundlichkeit. Empirische Ergebnisse aus über zwei Dutzend Benchmarks demonstrieren die Praxistauglichkeit von MX-Datenformaten als direkten Ersatz für das Basis-FP32-Format für KI-Inferenz und -Training mit geringer Benutzerbelastung. Wir zeigen außerdem das erste Beispiel für das Training generativer Sprachmodelle mit Gewichten, Aktivierungen und Gradienten unter 8 Bit bei minimalem Genauigkeitsverlust und ohne Änderungen am Trainingsrezept.
Trotz ihrer Erfolge in vielen natürlichen Sprachaufgaben bleibt die Lösung mathematischer Probleme eine erhebliche Herausforderung für große Sprachmodelle (LLMs). Es besteht eine große Lücke zwischen der „Pass-at-One“- und der „Pass-at-N“-Leistung von LLMs bei der Lösung mathematischer Probleme, was darauf hindeutet, dass LLMs nahe daran sein könnten, korrekte Lösungen zu finden. Dies motiviert unsere Untersuchung von Feinabstimmungsmethoden, um die Leistung von LLMs zu verbessern. Unter Verwendung des anspruchsvollen MATH-Datensatzes untersuchen wir drei Feinabstimmungsstrategien: (1) Lösungsfeinabstimmung, bei der wir das Modell darauf abstimmen, eine detaillierte Lösung für ein gegebenes mathematisches Problem zu generieren; (2) Lösungscluster-Neubewertung, bei der das LLM als Lösungsprüfer/-bewerter feinabgestimmt wird, um zwischen generierten Kandidatenlösungsclustern zu wählen; (3) Multitask-sequenzielle Feinabstimmung, die sowohl die Lösungsgenerierung als auch die Bewertungsaufgaben effizient integriert, um die Leistung des LLMs zu steigern. Mit diesen Methoden präsentieren wir eine umfassende empirische Studie an einer Reihe von PaLM-2-Modellen und finden: (1) Die Qualität und der Stil der schrittweisen Lösungen, die für die Feinabstimmung verwendet werden, können einen erheblichen Einfluss auf die Modellleistung haben; (2) Während die Neubewertung von Lösungen und die Mehrheitsabstimmung beide effektiv sind, um die Modellleistung zu verbessern, wenn sie separat verwendet werden, können sie auch zusammen für eine noch größere Leistungssteigerung eingesetzt werden; (3) Multitask-Feinabstimmung, die die Lösungsgenerierung und die Bewertungsaufgaben sequenziell trennt, kann eine verbesserte Leistung im Vergleich zur Lösungsfeinabstimmungs-Baseline bieten. Auf der Grundlage dieser Erkenntnisse entwickeln wir ein Feinabstimmungsrezept, das eine Genauigkeit von etwa 58,8 % auf dem MATH-Datensatz mit feinabgestimmten PaLM-2-L-Modellen erreicht, was einer Verbesserung von 11,2 % gegenüber der Few-Shot-Leistung des vortrainierten PaLM-2-L-Modells mit Mehrheitsabstimmung entspricht.
Wir untersuchen die Fähigkeiten von Transformer-Modellen für große Sprachmodelle (LLMs) bei relationalen Denkaufgaben, die abstrakte Symbole betreffen. Solche Aufgaben wurden in der Neurowissenschaftsliteratur lange als grundlegende Bausteine für komplexere Fähigkeiten in Programmierung, Mathematik und verbalem Denken untersucht. Für (i) Regressionsaufgaben beweisen wir, dass Transformer-Modelle bei Training verallgemeinern können, jedoch erstaunlich große Mengen an Trainingsdaten benötigen. Für (ii) Next-Token-Prediction-Aufgaben mit symbolischen Labels zeigen wir ein „inverses Skalierungsgesetz“: Transformer-Modelle scheitern an der Verallgemeinerung, wenn ihre Einbettungsdimension zunimmt. Für beide Szenarien (i) und (ii) schlagen wir subtile Modifikationen der Transformer-Modelle vor, die den benötigten Datenbedarf reduzieren können, indem zwei trainierbare Parameter pro Kopf hinzugefügt werden.
Die Synthese induktiver Schleifeninvarianten ist grundlegend für die Automatisierung der Programmverifikation. In dieser Arbeit beobachten wir, dass Large Language Models (wie gpt-3.5 oder gpt-4) in der Lage sind, Schleifeninvarianten für eine Klasse von Programmen in einem 0-Shot-Setting zu synthetisieren, jedoch mehrere Proben benötigen, um die korrekten Invarianten zu generieren. Dies kann zu einer großen Anzahl von Aufrufen eines Programmverifizierers führen, um eine Invariante zu etablieren. Um dieses Problem zu lösen, schlagen wir einen {\it Re-Ranking}-Ansatz für die generierten Ergebnisse von LLMs vor. Wir haben einen Ranker entworfen, der korrekte induktive Invarianten von fehlerhaften Versuchen basierend auf der Problemdefinition unterscheiden kann. Der Ranker wird als kontrastiver Ranker optimiert. Experimentelle Ergebnisse zeigen, dass dieser Re-Ranking-Mechanismus die Platzierung korrekter Invarianten unter den generierten Kandidaten signifikant verbessert, was zu einer deutlichen Reduzierung der Anzahl der Aufrufe eines Verifizierers führt.