Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren LongLoRA, einen effizienten Feinabstimmungsansatz, der die Kontextgrößen vortrainierter großer Sprachmodelle (LLMs) mit begrenztem Rechenaufwand erweitert. Typischerweise ist das Training von LLMs mit langen Kontextgrößen rechenintensiv und erfordert umfangreiche Trainingszeiten sowie GPU-Ressourcen. Zum Beispiel benötigt das Training mit einer Kontextlänge von 8192 16x mehr Rechenkosten in den Self-Attention-Schichten als bei einer Länge von 2048. In diesem Papier beschleunigen wir die Kontexterweiterung von LLMs in zwei Aspekten. Einerseits kann die Feinabstimmung des Modells effektiv und effizient durch spärliche lokale Aufmerksamkeit erfolgen, obwohl während der Inferenz eine dichte globale Aufmerksamkeit erforderlich ist. Die vorgeschlagene Shift-Short-Attention ermöglicht effektiv eine Kontexterweiterung und führt zu erheblichen Recheneinsparungen bei ähnlicher Leistung wie die Feinabstimmung mit herkömmlicher Aufmerksamkeit. Insbesondere kann sie mit nur zwei Codezeilen im Training implementiert werden, während sie in der Inferenz optional ist. Andererseits untersuchen wir das parameter-effiziente Feinabstimmungsregime für die Kontexterweiterung. Bemerkenswerterweise stellen wir fest, dass LoRA für die Kontexterweiterung gut funktioniert, vorausgesetzt, dass die Einbettungen und Normalisierungen trainierbar sind. LongLoRA zeigt starke empirische Ergebnisse bei verschiedenen Aufgaben auf LLaMA2-Modellen von 7B/13B bis 70B. LongLoRA erweitert den Kontext von LLaMA2 7B von 4k auf 100k oder von LLaMA2 70B auf 32k auf einer einzelnen 8x A100-Maschine. LongLoRA erweitert die Kontexte der Modelle, behält dabei ihre ursprünglichen Architekturen bei und ist mit den meisten bestehenden Techniken wie FlashAttention-2 kompatibel. Zusätzlich haben wir, um LongLoRA praktikabel zu machen, einen Datensatz, LongQA, für das überwachte Feinabstimmung gesammelt. Er enthält mehr als 3k lange Kontext-Frage-Antwort-Paare.
Transformer tauchte zunächst im Bereich der natürlichen Sprachverarbeitung auf und wurde später in den Bereich der Computer Vision übertragen, wo er hervorragende Leistungen bei visuellen Aufgaben zeigt. In jüngster Zeit hat jedoch das Retentive Network (RetNet) als Architektur mit dem Potenzial, Transformer zu ersetzen, breite Aufmerksamkeit in der NLP-Community erregt. Daher stellen wir die Frage, ob die Übertragung der Idee von RetNet auf die Vision ebenfalls herausragende Leistungen bei visuellen Aufgaben bringen kann. Um dies zu untersuchen, kombinieren wir RetNet und Transformer und schlagen RMT vor. Inspiriert von RetNet führt RMT eine explizite Abnahme in das Vision-Backbone ein, wodurch dem Vision-Modell Vorwissen im Zusammenhang mit räumlichen Distanzen vermittelt wird. Diese distanzbezogene räumliche Priorität ermöglicht eine explizite Kontrolle des Bereichs von Tokens, den jeder Token berücksichtigen kann. Zusätzlich zerlegen wir den Prozess der globalen Modellierung entlang der beiden Koordinatenachsen des Bildes, um die Rechenkosten zu reduzieren. Umfangreiche Experimente haben gezeigt, dass unser RMT in verschiedenen Computer-Vision-Aufgaben außergewöhnliche Leistungen erbringt. Beispielsweise erreicht RMT eine Top1-Genauigkeit von 84,1 % auf ImageNet-1k mit lediglich 4,5G FLOPs. Nach unserem Wissen erreicht RMT unter allen Modellen die höchste Top1-Genauigkeit, wenn Modelle ähnlicher Größe und mit derselben Strategie trainiert werden. Darüber hinaus übertrifft RMT bestehende Vision-Backbones in Downstream-Aufgaben wie Objekterkennung, Instanzsegmentierung und semantischer Segmentierung deutlich. Unsere Arbeit ist noch im Gange.
Generative Large Language Models (LLMs) haben bemerkenswerte Fortschritte in verschiedenen NLP-Aufgaben erzielt. Diese Fortschritte spiegeln sich jedoch nicht in der Übersetzungsaufgabe wider, insbesondere bei Modellen mit moderater Größe (d. h. 7B oder 13B Parametern), die nach wie vor hinter herkömmlichen überwachten Encoder-Decoder-Übersetzungsmodellen zurückbleiben. Frühere Studien haben versucht, die Übersetzungsfähigkeiten dieser moderaten LLMs zu verbessern, aber die erzielten Gewinne waren begrenzt. In dieser Studie schlagen wir einen neuartigen Fine-Tuning-Ansatz für LLMs vor, der speziell für die Übersetzungsaufgabe entwickelt wurde und den Bedarf an umfangreichen parallelen Daten, auf die traditionelle Übersetzungsmodelle üblicherweise angewiesen sind, eliminiert. Unser Ansatz besteht aus zwei Fine-Tuning-Stufen: anfängliches Fine-Tuning auf monolingualen Daten, gefolgt von nachfolgendem Fine-Tuning auf einer kleinen Menge hochwertiger paralleler Daten. Wir stellen das durch diese Strategie entwickelte LLM als Advanced Language Model-based trAnslator (ALMA) vor. Basierend auf LLaMA-2 als unserem zugrunde liegenden Modell zeigen unsere Ergebnisse, dass das Modell eine durchschnittliche Verbesserung von mehr als 12 BLEU und 12 COMET gegenüber seiner Zero-Shot-Leistung über 10 Übersetzungsrichtungen aus den Testdatensätzen von WMT'21 (2 Richtungen) und WMT'22 (8 Richtungen) erzielen kann. Die Leistung ist deutlich besser als alle bisherigen Arbeiten und sogar überlegen gegenüber dem NLLB-54B-Modell und GPT-3.5-text-davinci-003, obwohl es nur 7B oder 13B Parameter hat. Diese Methode legt den Grundstein für ein neuartiges Trainingsparadigma in der maschinellen Übersetzung.
Die Untersuchung, wie Menschen in realen Szenarien mit großen Sprachmodellen (LLMs) interagieren, wird aufgrund ihrer weit verbreiteten Nutzung in verschiedenen Anwendungen zunehmend wichtiger. In diesem Artikel stellen wir LMSYS-Chat-1M vor, einen umfangreichen Datensatz, der eine Million reale Konversationen mit 25 state-of-the-art LLMs enthält. Dieser Datensatz wurde von 210.000 eindeutigen IP-Adressen in freier Wildbahn auf unserer Vicuna-Demo und der Chatbot Arena-Website gesammelt. Wir geben einen Überblick über den Inhalt des Datensatzes, einschließlich des Kuratierungsprozesses, grundlegender Statistiken und der Themenverteilung, und heben dabei seine Vielfalt, Originalität und Größe hervor. Wir demonstrieren seine Vielseitigkeit anhand von vier Anwendungsfällen: der Entwicklung von Inhaltsmoderationsmodellen, die ähnlich wie GPT-4 abschneiden, der Erstellung eines Sicherheitsbenchmarks, dem Training von befehlsfolgenden Modellen, die ähnlich wie Vicuna performen, und der Erstellung herausfordernder Benchmark-Fragen. Wir glauben, dass dieser Datensatz eine wertvolle Ressource für das Verständnis und die Weiterentwicklung der Fähigkeiten von LLMs darstellen wird. Der Datensatz ist öffentlich verfügbar unter https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
Große Sprachmodelle (LLMs) haben die Grenzen des natürlichen Sprachverständnisses erweitert und hervorragende Problemlösungsfähigkeiten gezeigt. Trotz dieses großen Erfolgs sind die meisten bestehenden Open-Source-LLMs (z.B. LLaMA-2) noch weit davon entfernt, zufriedenstellende Ergebnisse bei der Lösung mathematischer Probleme zu liefern, was auf die komplexen Denkprozesse zurückzuführen ist. Um diese Lücke zu schließen, schlagen wir MetaMath vor, ein feinabgestimmtes Sprachmodell, das sich auf mathematisches Denken spezialisiert. Konkret beginnen wir damit, mathematische Fragen durch die Neufassung der Fragestellung aus mehreren Perspektiven ohne zusätzliches Wissen zu bootstrappen, was zu einem neuen Datensatz namens {MetaMathQA} führt. Anschließend passen wir die LLaMA-2-Modelle auf MetaMathQA fein ab. Experimentelle Ergebnisse auf zwei beliebten Benchmarks (d.h. GSM8K und MATH) für mathematisches Denken zeigen, dass MetaMath eine Reihe von Open-Source-LLMs deutlich übertrifft. Unser MetaMath-7B-Modell erreicht 66,4 % auf GSM8K und 19,4 % auf MATH und übertrifft damit die state-of-the-art Modelle gleicher Größe um 11,5 % bzw. 8,7 %. Insbesondere erreicht {MetaMath-70B} eine Genauigkeit von 82,3 % auf {GSM8K}, was leicht besser ist als {GPT-3.5-Turbo}. Wir veröffentlichen den {MetaMathQA}-Datensatz, die {MetaMath}-Modelle in verschiedenen Größen und den Trainingscode zur öffentlichen Nutzung.
3D-Visual-Grounding ist eine entscheidende Fähigkeit für Haushaltsroboter, die es ihnen ermöglicht, zu navigieren, Objekte zu manipulieren und Fragen basierend auf ihrer Umgebung zu beantworten. Während bestehende Ansätze oft auf umfangreiche annotierte Daten angewiesen sind oder Einschränkungen bei der Verarbeitung komplexer Sprachabfragen aufweisen, schlagen wir LLM-Grounder vor, eine neuartige Zero-Shot-, Open-Vocabulary-Pipeline für 3D-Visual-Grounding, die auf einem Large Language Model (LLM) basiert. LLM-Grounder nutzt ein LLM, um komplexe natürliche Sprachabfragen in semantische Bestandteile zu zerlegen, und verwendet ein Visual-Grounding-Tool wie OpenScene oder LERF, um Objekte in einer 3D-Szene zu identifizieren. Das LLM bewertet dann die räumlichen und alltagslogischen Beziehungen zwischen den vorgeschlagenen Objekten, um eine endgültige Grounding-Entscheidung zu treffen. Unser Ansatz benötigt keine annotierten Trainingsdaten und kann auf neue 3D-Szenen und beliebige Textabfragen verallgemeinert werden. Wir evaluieren LLM-Grounder auf dem ScanRefer-Benchmark und demonstrieren state-of-the-art Zero-Shot-Grounding-Genauigkeit. Unsere Ergebnisse zeigen, dass LLMs die Grounding-Fähigkeit erheblich verbessern, insbesondere bei komplexen Sprachabfragen, was LLM-Grounder zu einem effektiven Ansatz für 3D-Vision-Language-Aufgaben in der Robotik macht. Videos und interaktive Demos finden Sie auf der Projektwebsite https://chat-with-nerf.github.io/.
In dieser Arbeit stellen wir Boolformer vor, die erste Transformer-Architektur, die darauf trainiert wurde, eine end-to-end symbolische Regression von Booleschen Funktionen durchzuführen. Zunächst zeigen wir, dass sie kompakte Formeln für komplexe Funktionen vorhersagen kann, die während des Trainings nicht gesehen wurden, wenn eine saubere Wahrheitstabelle bereitgestellt wird. Dann demonstrieren wir ihre Fähigkeit, approximative Ausdrücke zu finden, wenn unvollständige und verrauschte Beobachtungen vorliegen. Wir evaluieren den Boolformer anhand einer breiten Palette von realen binären Klassifikationsdatensätzen und zeigen sein Potenzial als interpretierbare Alternative zu klassischen maschinellen Lernmethoden. Schließlich wenden wir ihn auf die weit verbreitete Aufgabe der Modellierung der Dynamik von Genregulationsnetzwerken an. Mit einem aktuellen Benchmark zeigen wir, dass Boolformer mit state-of-the-art genetischen Algorithmen konkurrieren kann und dabei eine Beschleunigung um mehrere Größenordnungen erreicht. Unser Code und unsere Modelle sind öffentlich verfügbar.
Wir stellen das Bittensor Language Model vor, genannt „BTLM-3B-8K“, ein neues Open-Source-Sprachmodell mit 3 Milliarden Parametern, das den aktuellen Stand der Technik repräsentiert. BTLM-3B-8K wurde auf 627 Milliarden Tokens aus dem SlimPajama-Datensatz mit einer Mischung aus Kontextlängen von 2.048 und 8.192 trainiert. BTLM-3B-8K übertrifft alle bestehenden 3-Milliarden-Parameter-Modelle um 2–5,5 % bei nachgelagerten Aufgaben und ist sogar mit einigen 7-Milliarden-Parameter-Modellen wettbewerbsfähig. Darüber hinaus bietet BTLM-3B-8K eine hervorragende Leistung bei langen Kontexten und übertrifft MPT-7B-8K und XGen-7B-8K bei Aufgaben mit einer Kontextlänge von bis zu 8.192. Wir haben das Modell auf einem bereinigten und deduplizierten SlimPajama-Datensatz trainiert, die \textmu P-Hyperparameter und den Zeitplan aggressiv optimiert, ALiBi-Positionsembedding verwendet und die SwiGLU-Nichtlinearität übernommen. Auf Hugging Face haben die beliebtesten Modelle 7 Milliarden Parameter, was darauf hindeutet, dass Benutzer das Qualitäts-Größen-Verhältnis von 7-Milliarden-Parameter-Modellen bevorzugen. Die Komprimierung eines 7-Milliarden-Parameter-Modells auf eines mit 3 Milliarden Parametern bei minimalem Leistungsverlust ist ein wichtiger Meilenstein. BTLM-3B-8K benötigt nur 3 GB Speicher bei 4-Bit-Genauigkeit und benötigt 2,5-mal weniger Rechenleistung für die Inferenz als 7-Milliarden-Parameter-Modelle, was den Zugang zu einem leistungsstarken Sprachmodell auf mobilen und Edge-Geräten erleichtert. BTLM-3B-8K ist unter einer Apache-2.0-Lizenz auf Hugging Face verfügbar: https://huggingface.co/cerebras/btlm-3b-8k-base.