Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Artikel führen wir den Instruction Following Score (IFS) ein, eine Metrik, die die Fähigkeit von Sprachmodellen, Anweisungen zu befolgen, erfasst. Die Metrik hat einen zweifachen Zweck. Erstens kann der IFS verwendet werden, um zwischen Basis- und Instruktionsmodellen zu unterscheiden. Wir benchmarken öffentlich verfügbare Basis- und Instruktionsmodelle und zeigen, dass das Verhältnis von gut formatierten Antworten zu Teil- und vollständigen Sätzen ein effektives Maß zur Unterscheidung dieser beiden Modellklassen darstellt. Zweitens kann die Metrik als frühes Abbruchkriterium für das Instruktions-Finetuning verwendet werden. Wir berechnen den IFS für das Supervised Fine-Tuning (SFT) von 7B- und 13B-LLaMA-Modellen und zeigen, dass Modelle relativ früh im Trainingsprozess lernen, Anweisungen zu befolgen, und dass weiteres Finetuning zu Veränderungen in der Semantik des zugrunde liegenden Basismodells führen kann. Als Beispiel für semantische Veränderungen zeigen wir die Objektivität der Modellvorhersagen, definiert durch eine zusätzliche Metrik, ObjecQA. Wir zeigen, dass in diesem speziellen Fall die semantischen Veränderungen am stärksten sind, wenn der IFS dazu neigt, ein Plateau zu erreichen. Wir hoffen, dass die Aufteilung des Instruktions-Finetunings in IFS und semantische Faktoren einen neuen Trend hin zu besser kontrollierbarem Instruktions-Finetuning einleitet und Möglichkeiten für die Gestaltung minimaler Instruktionsschnittstellen zur Abfrage von Foundation-Modellen eröffnet.
Die Abläufe in der Lieferkette umfassen traditionell eine Vielzahl komplexer Entscheidungsprobleme. In den letzten Jahrzehnten haben Lieferketten erheblich von Fortschritten in der Datenverarbeitung profitiert, die den Übergang von manueller Bearbeitung zu Automatisierung und kosteneffizienter Optimierung ermöglichten. Dennoch müssen Geschäftsbetreiber nach wie vor erhebliche Anstrengungen darauf verwenden, die Optimierungsergebnisse für Stakeholder zu erklären und zu interpretieren. Angeregt durch die jüngsten Fortschritte bei Large Language Models (LLMs) untersuchen wir, wie diese disruptive Technologie die Lücke zwischen der Automatisierung von Lieferketten und dem menschlichen Verständnis sowie dem Vertrauen darin überbrücken kann. Wir entwickeln ein Framework, das Eingabeanfragen in Klartext akzeptiert und Einblicke in die zugrunde liegenden Optimierungsergebnisse liefert. Unser Framework verzichtet nicht auf die modernste kombinatorische Optimierungstechnologie, sondern nutzt sie, um quantitative Antworten auf Was-wäre-wenn-Szenarien zu geben (z. B. wie würden sich die Kosten ändern, wenn wir für eine bestimmte Nachfrage Lieferant B statt Lieferant A verwenden würden?). Wichtig ist, dass unser Entwurf nicht erfordert, proprietäre Daten an LLMs zu senden, was in manchen Fällen ein Datenschutzproblem darstellen könnte. Wir demonstrieren die Wirksamkeit unseres Frameworks anhand eines realen Serverplatzierungsszenarios in der Cloud-Lieferkette von Microsoft. Dabei entwickeln wir einen allgemeinen Evaluierungsbenchmark, der verwendet werden kann, um die Genauigkeit der LLM-Ausgaben in anderen Szenarien zu bewerten.
Große Sprachmodelle wie GPT-4 zeigen emergente Fähigkeiten bei allgemeinen Aufgaben, wie etwa grundlegender Arithmetik, wenn sie auf umfangreiche Textdaten trainiert werden, obwohl diese Aufgaben nicht explizit durch das unüberwachte, nächste-Token-Vorhersageziel kodiert sind. Diese Studie untersucht, wie kleine Transformer-Modelle, die zufällig initialisiert trainiert werden, effizient arithmetische Operationen wie Addition, Multiplikation und elementare Funktionen wie Quadratwurzel mithilfe des nächste-Token-Vorhersageziels erlernen können. Wir zeigen zunächst, dass konventionelle Trainingsdaten nicht am effektivsten für das Erlernen von Arithmetik sind und dass einfache Formatierungsänderungen die Genauigkeit erheblich verbessern können. Dies führt zu scharfen Phasenübergängen in Abhängigkeit vom Umfang der Trainingsdaten, die in einigen Fällen durch Verbindungen zur Niedrigrang-Matrix-Vervollständigung erklärt werden können. Aufbauend auf früheren Arbeiten trainieren wir dann mit Daten im Chain-of-Thought-Stil, die Zwischenergebnisse enthalten. Selbst bei völligem Fehlen von Vortraining verbessert dieser Ansatz die Genauigkeit, die Stichprobenkomplexität und die Konvergenzgeschwindigkeit signifikant und gleichzeitig. Wir untersuchen auch das Zusammenspiel zwischen arithmetischen und Textdaten während des Trainings und betrachten die Auswirkungen von Few-Shot-Prompting, Vortraining und der Modellgröße. Zusätzlich diskutieren wir Herausforderungen bei der Längengeneralisierung. Unsere Arbeit unterstreicht die Bedeutung von hochwertigen, instruktiven Daten, die die besonderen Eigenschaften des nächste-Wort-Vorhersageziels berücksichtigen, um arithmetische Fähigkeiten schnell zu fördern.
Das Instruction Tuning von großen Sprachmodellen (LLMs) auf Bild-Text-Paaren hat beispiellose visuell-sprachliche multimodale Fähigkeiten erreicht. Allerdings basieren ihre visuell-sprachlichen Ausrichtungen nur auf Bildebene, und das Fehlen einer regionsbasierten Ausrichtung begrenzt ihre Fortschritte im Bereich des feingranularen multimodalen Verständnisses. In diesem Artikel schlagen wir das Instruction Tuning auf Regionen von Interesse vor. Der Schlüsselentwurf besteht darin, die Begrenzungsbox als Format der räumlichen Anweisung neu zu formulieren. Die verschachtelten Sequenzen von visuellen Merkmalen, die durch die räumliche Anweisung extrahiert werden, und die Spracheinbettung werden in das LLM eingegeben und auf den transformierten Region-Text-Daten im Instruction-Tuning-Format trainiert. Unser regionsbasiertes visuell-sprachliches Modell, genannt GPT4RoI, bietet eine völlig neue konversationelle und interaktive Erfahrung, die über das Bildverständnis hinausgeht. (1) Steuerbarkeit: Benutzer können mit unserem Modell sowohl durch Sprache als auch durch räumliche Anweisungen interagieren, um den Detaillierungsgrad der Frage flexibel anzupassen. (2) Fähigkeiten: Unser Modell unterstützt nicht nur einzelne regionale räumliche Anweisungen, sondern auch Multi-Region-Anweisungen. Dies erschließt weitere regionsbasierte multimodale Fähigkeiten wie detaillierte Regionenbeschreibungen und komplexe Regionenlogik. (3) Zusammensetzung: Jeder verfügbare Objektdetektor kann als Anbieter räumlicher Anweisungen fungieren, um informative Objektattribute wie Farbe, Form, Material, Aktion, Beziehung zu anderen Objekten usw. aus unserem Modell zu extrahieren. Der Code, die Daten und die Demo sind unter https://github.com/jshilong/GPT4RoI verfügbar.
Eine große Anzahl von Menschen ist aufgrund technologischer Asymmetrien gezwungen, das Web in einer Sprache zu nutzen, in der sie nur geringe Kenntnisse haben. Geschriebener Text in der Zweitsprache (L2) von solchen Nutzern enthält oft eine Vielzahl von Fehlern, die von ihrer Muttersprache (L1) beeinflusst sind. Wir schlagen eine Methode vor, um Phonemverwechslungen (Laute in L2, die ein L1-Sprecher wahrscheinlich verwechselt) für Paare von L1 und L2 zu ermitteln. Diese Verwechslungen werden dann in ein generatives Modell (Bi-Phone) integriert, um synthetisch verfälschten L2-Text zu erzeugen. Durch menschliche Bewertungen zeigen wir, dass Bi-Phone plausible Verfälschungen erzeugt, die sich zwischen verschiedenen L1s unterscheiden und auch eine breite Abdeckung im Web aufweisen. Wir verfälschen auch den beliebten Sprachverständnis-Benchmark SuperGLUE mit unserer Technik (FunGLUE für Phonetisch Verrauschte GLUE) und zeigen, dass State-of-the-Art-Sprachverständnismodelle schlecht abschneiden. Wir führen außerdem eine neue Phonemvorhersage-Vortrainingsaufgabe ein, die Byte-Modellen hilft, die Leistung nahe an SuperGLUE wiederherzustellen. Schließlich veröffentlichen wir auch den FunGLUE-Benchmark, um weitere Forschungen zu phonetisch robusten Sprachmodellen zu fördern. Nach unserem besten Wissen ist FunGLUE der erste Benchmark, der L1-L2-Interaktionen in Text einführt.
Dank der Entstehung von Foundation-Modellen werden große Sprach- und Vision-Modelle integriert, um multimodale Fähigkeiten wie visuelle Bildbeschreibung, Dialogführung und Fragebeantwortung zu erlangen. Obwohl bestehende multimodale Modelle beeindruckende Leistungen im Bereich des visuellen Verstehens und Schlussfolgerns zeigen, sind ihre Grenzen aufgrund der Knappheit hochwertiger Instruktions-Tuning-Daten noch weitgehend unerforscht. Um die Grenzen der multimodalen Fähigkeiten zu erweitern, skalieren wir Visual Instruction Tuning (SVIT), indem wir einen Datensatz mit 3,2 Millionen visuellen Instruktions-Tuning-Daten erstellen, darunter 1,6 Millionen Konversations-Frage-Antwort-Paare (QA), 1,6 Millionen komplexe Schlussfolgerungs-QA-Paare und 106.000 detaillierte Bildbeschreibungen. Neben dem Umfang zeichnet sich der vorgeschlagene Datensatz auch durch hohe Qualität und große Vielfalt aus, die durch die Anregung von GPT-4 mit umfangreichen manuellen Bildanmerkungen generiert werden. Wir bestätigen empirisch, dass das Training multimodaler Modelle auf SVIT die multimodale Leistung in Bezug auf visuelle Wahrnehmung, Schlussfolgerung und Planung signifikant verbessern kann.
Aktuelle Arbeiten haben das In-Context-Lernen empirisch analysiert und gezeigt, dass Transformer, die auf synthetischen linearen Regressionsaufgaben trainiert wurden, Ridge-Regression implementieren können, was der Bayes-optimale Prädiktor ist, sofern ausreichend Kapazität vorhanden ist [Akyürek et al., 2023], während einlagige Transformer mit linearem Self-Attention und ohne MLP-Schicht einen Schritt des Gradientenabstiegs (GD) auf ein kleinstes-Quadrate-lineares Regressionsziel lernen [von Oswald et al., 2022]. Die Theorie hinter diesen Beobachtungen bleibt jedoch weitgehend unverstanden. Wir untersuchen theoretisch Transformer mit einer einzelnen Schicht von linearem Self-Attention, die auf synthetischen verrauschten linearen Regressionsdaten trainiert wurden. Zunächst zeigen wir mathematisch, dass, wenn die Kovariaten aus einer Standard-Gauß-Verteilung gezogen werden, der einlagige Transformer, der den Pre-Training-Verlust minimiert, einen Schritt des GD auf das kleinstes-Quadrate-lineare Regressionsziel implementiert. Dann stellen wir fest, dass eine Änderung der Verteilung der Kovariaten und des Gewichtsvektors zu einer nicht-isotropen Gauß-Verteilung einen starken Einfluss auf den gelernten Algorithmus hat: Der globale Minimierer des Pre-Training-Verlusts implementiert nun einen Schritt des vorkonditionierten GD. Wenn jedoch nur die Verteilung der Antwortvariablen geändert wird, hat dies keinen großen Einfluss auf den gelernten Algorithmus: Selbst wenn die Antwortvariable aus einer allgemeineren Familie nichtlinearer Funktionen stammt, implementiert der globale Minimierer des Pre-Training-Verlusts weiterhin einen Schritt des GD auf ein kleinstes-Quadrate-lineares Regressionsziel.
Was macht Generalisierung in der Imitationslernforschung für die visuelle Roboter-Manipulation so schwierig? Diese Frage ist auf den ersten Blick schwer zu beantworten, aber die Umgebung aus der Perspektive eines Roboters lässt sich oft in zahlreiche Variationsfaktoren zerlegen, wie etwa die Lichtverhältnisse oder die Platzierung der Kamera. Empirisch hat sich gezeigt, dass die Generalisierung bei einigen dieser Faktoren eine größere Herausforderung darstellt als bei anderen, doch bisherige Arbeiten geben wenig Aufschluss darüber, wie stark jeder einzelne Faktor zur Generalisierungslücke beiträgt. Um eine Antwort auf diese Frage zu finden, untersuchen wir Imitationslernstrategien in der Simulation und in einer realen Roboteraufgabe zur sprachgesteuerten Manipulation, um den Schwierigkeitsgrad der Generalisierung für verschiedene (Kombinationen von) Faktoren zu quantifizieren. Zudem entwickeln wir einen neuen simulierten Benchmark mit 19 Aufgaben und 11 Variationsfaktoren, um kontrolliertere Bewertungen der Generalisierung zu ermöglichen. Aus unserer Studie leiten wir eine Reihenfolge der Faktoren basierend auf dem Schwierigkeitsgrad der Generalisierung ab, die sowohl in der Simulation als auch in unserem realen Robotersystem konsistent ist.
Fortschrittliche KI-Modelle bergen das Versprechen enormer Vorteile für die Menschheit, doch die Gesellschaft muss die damit verbundenen Risiken proaktiv managen. In diesem Artikel konzentrieren wir uns auf das, was wir als „Frontier AI“-Modelle bezeichnen: hochleistungsfähige Basismodelle, die gefährliche Fähigkeiten besitzen könnten, die ausreichen, um schwerwiegende Risiken für die öffentliche Sicherheit darzustellen. Frontier AI-Modelle stellen eine besondere regulatorische Herausforderung dar: gefährliche Fähigkeiten können unerwartet auftreten; es ist schwierig, den Missbrauch eines eingesetzten Modells robust zu verhindern; und es ist schwierig, die Verbreitung der Fähigkeiten eines Modells weitgehend zu stoppen. Um diese Herausforderungen zu bewältigen, werden mindestens drei Bausteine für die Regulierung von Frontier-Modellen benötigt: (1) Standardisierungsprozesse, um angemessene Anforderungen für Frontier AI-Entwickler zu identifizieren, (2) Registrierungs- und Berichtspflichten, um Regulierungsbehörden Einblicke in die Entwicklungsprozesse von Frontier AI zu ermöglichen, und (3) Mechanismen zur Sicherstellung der Einhaltung von Sicherheitsstandards für die Entwicklung und den Einsatz von Frontier AI-Modellen. Die Selbstregulierung der Industrie ist ein wichtiger erster Schritt. Allerdings werden breitere gesellschaftliche Diskussionen und staatliche Interventionen erforderlich sein, um Standards zu schaffen und deren Einhaltung sicherzustellen. Wir erwägen mehrere Optionen hierfür, einschließlich der Gewährung von Durchsetzungsbefugnissen an Aufsichtsbehörden und Lizenzierungsregime für Frontier AI-Modelle. Schließlich schlagen wir einen ersten Satz von Sicherheitsstandards vor. Dazu gehören die Durchführung von Risikobewertungen vor dem Einsatz; externe Überprüfung des Modellverhaltens; die Nutzung von Risikobewertungen zur Informationsgrundlage für Einsatzentscheidungen; sowie die Überwachung und Reaktion auf neue Informationen über Modellfähigkeiten und -nutzungen nach dem Einsatz. Wir hoffen, dass diese Diskussion einen Beitrag zur breiteren Debatte darüber leistet, wie die Risiken für die öffentliche Sicherheit und die Innovationsvorteile durch Fortschritte an der Grenze der KI-Entwicklung in Einklang gebracht werden können.