Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen QLoRA vor, einen effizienten Feinabstimmungsansatz, der den Speicherverbrauch so weit reduziert, dass ein Modell mit 65 Milliarden Parametern auf einer einzelnen 48GB-GPU feinabgestimmt werden kann, während die volle 16-Bit-Leistung bei der Feinabstimmungsaufgabe erhalten bleibt. QLoRA propagiert Gradienten durch ein eingefrorenes, 4-Bit-quantisiertes vortrainiertes Sprachmodell in Low-Rank-Adapter (LoRA). Unsere beste Modellfamilie, die wir Guanaco nennen, übertrifft alle bisher offen veröffentlichten Modelle im Vicuna-Benchmark und erreicht 99,3 % der Leistung von ChatGPT, während nur 24 Stunden Feinabstimmung auf einer einzelnen GPU benötigt werden. QLoRA führt mehrere Innovationen ein, um Speicher zu sparen, ohne die Leistung zu beeinträchtigen: (a) 4-Bit NormalFloat (NF4), ein neuer Datentyp, der informationstheoretisch optimal für normalverteilte Gewichte ist, (b) doppelte Quantisierung, um den durchschnittlichen Speicherbedarf durch die Quantisierung der Quantisierungskonstanten zu reduzieren, und (c) gepagerte Optimierer, um Speicherspitzen zu verwalten. Wir verwenden QLoRA, um mehr als 1.000 Modelle fein abzustimmen, und bieten eine detaillierte Analyse der Befolgung von Anweisungen und der Chatbot-Leistung über 8 Anweisungsdatensätze, mehrere Modelltypen (LLaMA, T5) und Modellgrößen hinweg, die mit regulärer Feinabstimmung nicht durchführbar wären (z.B. 33B und 65B Parameter-Modelle). Unsere Ergebnisse zeigen, dass die QLoRA-Feinabstimmung auf einem kleinen, hochwertigen Datensatz zu state-of-the-art Ergebnissen führt, selbst wenn kleinere Modelle als der bisherige SoTA verwendet werden. Wir bieten eine detaillierte Analyse der Chatbot-Leistung basierend auf sowohl menschlichen als auch GPT-4-Bewertungen, die zeigen, dass GPT-4-Bewertungen eine kostengünstige und vernünftige Alternative zur menschlichen Bewertung darstellen. Darüber hinaus stellen wir fest, dass aktuelle Chatbot-Benchmarks nicht vertrauenswürdig sind, um die Leistungsniveaus von Chatbots genau zu bewerten. Eine gezielte Analyse zeigt, wo Guanaco im Vergleich zu ChatGPT versagt. Wir veröffentlichen alle unsere Modelle und Code, einschließlich CUDA-Kernels für das 4-Bit-Training.
Das Feinabstimmen auf Instruktionsdaten hat sich als effektive Praxis zur Implementierung von Chat-Sprachmodellen wie ChatGPT weitgehend bewährt. Die Skalierung der Vielfalt und Qualität solcher Daten, obwohl unkompliziert, bietet eine große Chance, die Leistung zu verbessern. Diese Arbeit zielt darauf ab, die Obergrenze von Open-Source-Modellen weiter zu verbessern. Zunächst stellen wir einen systematisch gestalteten, vielfältigen, informativen und groß angelegten Datensatz von Instruktionsgesprächen vor, UltraChat, der keine menschlichen Anfragen beinhaltet. Unser Ziel ist es, die Bandbreite der Interaktionen zu erfassen, die ein Mensch mit einem KI-Assistenten haben könnte, und ein umfassendes Framework zu verwenden, um mehrfache Gespräche iterativ zu generieren. UltraChat enthält 1,5 Millionen hochwertige mehrfache Dialoge und deckt eine breite Palette von Themen und Anweisungen ab. Unsere statistische Analyse von UltraChat zeigt seine Überlegenheit in verschiedenen Schlüsselmetriken, einschließlich Umfang, durchschnittlicher Länge, Vielfalt, Kohärenz usw., und festigt seine Position als führender Open-Source-Datensatz. Aufbauend auf UltraChat stimmen wir ein LLaMA-Modell fein, um ein leistungsstarkes Konversationsmodell, UltraLLaMA, zu erstellen. Unsere Bewertungen zeigen, dass UltraLLaMA durchweg andere Open-Source-Modelle, einschließlich Vicuna, das bisher als state-of-the-art anerkannte Open-Source-Modell, übertrifft. Der Datensatz und das Modell werden öffentlich freigegeben\url{https://github.com/thunlp/UltraChat}.
Wir stellen Goat vor, ein feinabgestimmtes LLaMA-Modell, das GPT-4 bei einer Reihe von arithmetischen Aufgaben deutlich übertrifft. Durch Feinabstimmung auf einem synthetisch generierten Datensatz erreicht Goat state-of-the-art Leistung bei der BIG-bench Arithmetik-Unteraufgabe. Insbesondere erreicht das Zero-Shot Goat-7B die Genauigkeit des Few-Shot PaLM-540B oder übertrifft sie sogar. Überraschenderweise kann Goat durch überwachte Feinabstimmung nahezu perfekte Genauigkeit bei der Addition und Subtraktion großer Zahlen erreichen, was mit bisherigen vortrainierten Sprachmodellen wie Bloom, OPT, GPT-NeoX usw. nahezu unmöglich war. Wir führen die außergewöhnliche Leistung von Goat auf die konsistente Tokenisierung von Zahlen durch LLaMA zurück. Um anspruchsvollere Aufgaben wie die Multiplikation und Division großer Zahlen zu bewältigen, schlagen wir einen Ansatz vor, der Aufgaben basierend auf ihrer Erlernbarkeit klassifiziert und anschließend nicht erlernbare Aufgaben, wie mehrstellige Multiplikation und Division, durch die Nutzung grundlegender arithmetischer Prinzipien in eine Reihe von erlernbaren Aufgaben zerlegt. Wir untersuchen die Leistung unseres Modells gründlich und bieten eine umfassende Bewertung der Effektivität unserer vorgeschlagenen Zerlegungsschritte. Zudem kann Goat-7B einfach mit LoRA auf einer GPU mit 24 GB VRAM trainiert werden, was die Reproduzierbarkeit für andere Forscher erleichtert. Wir veröffentlichen unser Modell, den Datensatz und das Python-Skript zur Datensatzgenerierung.
Ein großes Risiko bei der praktischen Anwendung von Sprachmodellen ist ihre Tendenz, falsche Aussagen zu halluzinieren. Halluzinationen werden oft Wissenslücken in Sprachmodellen zugeschrieben, aber wir stellen die Hypothese auf, dass Sprachmodelle in einigen Fällen, wenn sie zuvor generierte Halluzinationen rechtfertigen, falsche Behauptungen ausgeben, die sie separat als inkorrekt erkennen könnten. Wir konstruieren drei Frage-Antwort-Datensätze, in denen ChatGPT und GPT-4 häufig eine falsche Antwort geben und eine Erklärung mit mindestens einer falschen Behauptung liefern. Entscheidend ist, dass wir feststellen, dass ChatGPT und GPT-4 jeweils 67 % bzw. 87 % ihrer eigenen Fehler identifizieren können. Wir bezeichnen dieses Phänomen als Halluzinationsschneeballeffekt: Ein Sprachmodell verharrt zu stark auf früheren Fehlern, was zu weiteren Fehlern führt, die es ansonsten nicht machen würde.
Sprachmodelle für akustische Daten (SpeechLMs) verarbeiten und erzeugen ausschließlich akustische Daten, ohne textuelle Überwachung. In dieser Arbeit schlagen wir TWIST vor, eine Methode zum Trainieren von SpeechLMs unter Verwendung eines Warm-Starts von vortrainierten textuellen Sprachmodellen. Wir zeigen sowohl durch automatische als auch durch menschliche Bewertungen, dass TWIST ein kalt gestartetes SpeechLM in allen Bereichen übertrifft. Wir analysieren empirisch den Einfluss verschiedener Modellentwurfsentscheidungen wie des Sprach-Tokenizers, des vortrainierten textuellen Modells und der Datensatzgröße. Wir stellen fest, dass sowohl die Modell- als auch die Datensatzskalierung eine wichtige Rolle bei der Konstruktion besser performender SpeechLMs spielen. Basierend auf unseren Beobachtungen präsentieren wir das größte (unseres Wissens nach) SpeechLM sowohl in Bezug auf die Anzahl der Parameter als auch auf die Trainingsdaten. Zusätzlich führen wir zwei gesprochene Versionen des textuellen StoryCloze-Benchmarks ein, um die Modellbewertung weiter zu verbessern und zukünftige Forschung in diesem Bereich voranzutreiben. Sprachbeispiele finden Sie auf unserer Website: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
Der feste Kontextumfang von Transformer macht GPT-Modelle unfähig, beliebig lange Texte zu generieren. In diesem Artikel stellen wir RecurrentGPT vor, ein sprachbasiertes Simulacrum des Rekurrenzmechanismus in RNNs. RecurrentGPT basiert auf einem großen Sprachmodell (LLM) wie ChatGPT und verwendet natürliche Sprache, um den Long Short-Term Memory-Mechanismus in einem LSTM zu simulieren. Bei jedem Zeitschritt generiert RecurrentGPT einen Textabschnitt und aktualisiert sein sprachbasiertes Langzeit-Kurzzeit-Gedächtnis, das auf der Festplatte und im Prompt gespeichert ist. Dieser Rekurrenzmechanismus ermöglicht es RecurrentGPT, Texte beliebiger Länge zu generieren, ohne dabei zu vergessen. Da menschliche Benutzer die natürlichen Sprachspeicher leicht beobachten und bearbeiten können, ist RecurrentGPT interpretierbar und ermöglicht die interaktive Generierung langer Texte. RecurrentGPT ist ein erster Schritt hin zu computergestützten Schreibsystemen der nächsten Generation, die über lokale Bearbeitungsvorschläge hinausgehen. Neben der Erzeugung von KI-generierten Inhalten (AIGC) zeigen wir auch die Möglichkeit auf, RecurrentGPT als interaktive Fiktion zu verwenden, die direkt mit den Konsumenten interagiert. Wir bezeichnen diese Nutzung von generativen Modellen als „KI als Inhalte“ (AIAC), von der wir glauben, dass sie die nächste Form der konventionellen AIGC darstellt. Wir demonstrieren weiterhin die Möglichkeit, RecurrentGPT zur Erstellung personalisierter interaktiver Fiktion zu verwenden, die direkt mit den Lesern interagiert, anstatt mit den Autoren. Im weiteren Sinne zeigt RecurrentGPT den Nutzen auf, Ideen aus populären Modellentwürfen der Kognitionswissenschaft und des Deep Learnings für das Prompting von LLMs zu übernehmen. Unser Code ist verfügbar unter https://github.com/aiwaves-cn/RecurrentGPT und eine Online-Demo ist verfügbar unter https://www.aiwaves.org/recurrentgpt.
Der Aufstieg großer Sprachmodelle (LLMs) hat verschiedene Anwendungen dieser Technologie in der Softwareentwicklung ermöglicht. Insbesondere generative LLMs haben sich als effektiv erwiesen, um KI-basierte Code-Erstellungstools zu betreiben, die während der Code-Erstellung ganze Anweisungen oder Codeblöcke vorschlagen können. In diesem Artikel stellen wir CodeCompose vor, ein KI-gestütztes Code-Erstellungstool, das intern bei Meta entwickelt und eingesetzt wurde. CodeCompose basiert auf dem InCoder-LLM, das generative Fähigkeiten mit Bidirektionalität kombiniert. Wir haben CodeCompose skaliert, um Zehntausende von Entwicklern bei Meta zu unterstützen, über 10+ Programmiersprachen und mehrere Code-Oberflächen hinweg. Wir diskutieren einzigartige Herausforderungen in Bezug auf Benutzererfahrung und Metriken, die bei der Bereitstellung solcher Tools in groß angelegten industriellen Umgebungen auftreten. Wir präsentieren unsere Erfahrungen bei der Entscheidungsfindung über das Modell und die Systemarchitektur für CodeCompose, die diese Herausforderungen adressieren. Schließlich präsentieren wir Metriken aus unserer groß angelegten Bereitstellung von CodeCompose, die dessen Auswirkungen auf die interne Code-Erstellungserfahrung bei Meta über einen Zeitraum von 15 Tagen zeigen, in dem CodeCompose 4,5 Millionen Vorschläge gemacht hat. Quantitative Metriken zeigen, dass (i) CodeCompose eine Akzeptanzrate von 22 % über mehrere Sprachen hinweg aufweist und (ii) 8 % des von CodeCompose-Nutzern eingegebenen Codes durch die Annahme von Code-Vorschlägen von CodeCompose entstehen. Qualitative Rückmeldungen deuten auf eine überwältigend positive Resonanz von 91,5 % für CodeCompose hin. Neben der Unterstützung bei der Code-Erstellung führt CodeCompose auch zu anderen positiven Nebeneffekten, wie der Ermutigung von Entwicklern, mehr Code-Dokumentation zu erstellen, und der Hilfe bei der Entdeckung neuer APIs usw.
Wir schlagen einen neuartigen multimodalen Video-Benchmark vor – den Perception Test – zur Bewertung der Wahrnehmungs- und Denkfähigkeiten vortrainierter multimodaler Modelle (z. B. Flamingo, BEiT-3 oder GPT-4). Im Vergleich zu bestehenden Benchmarks, die sich auf rechnerische Aufgaben konzentrieren (z. B. Klassifizierung, Erkennung oder Verfolgung), legt der Perception Test den Fokus auf Fähigkeiten (Gedächtnis, Abstraktion, Physik, Semantik) und Arten des Denkens (beschreibend, erklärend, vorhersagend, kontrafaktisch) über Video-, Audio- und Textmodalitäten hinweg, um ein umfassendes und effizientes Bewertungswerkzeug bereitzustellen. Der Benchmark untersucht die Transferfähigkeiten vortrainierter Modelle in einem Zero-Shot-/Few-Shot- oder begrenzten Fine-Tuning-Regime. Zu diesem Zweck führt der Perception Test 11.600 reale Videos mit einer durchschnittlichen Länge von 23 Sekunden ein, die darauf abzielen, wahrnehmungsmäßig interessante Situationen zu zeigen und von rund 100 Teilnehmern weltweit aufgenommen wurden. Die Videos sind dicht mit sechs Arten von Labels annotiert (Multiple-Choice- und verankerte Video-Frage-Antworten, Objekt- und Punktverfolgungen, zeitliche Handlungs- und Soundsegmente), wodurch sowohl sprachliche als auch nicht-sprachliche Bewertungen ermöglicht werden. Die Fine-Tuning- und Validierungsaufteilungen des Benchmarks sind öffentlich verfügbar (CC-BY-Lizenz), zusätzlich zu einem Challenge-Server mit einer zurückgehaltenen Testaufteilung. Die menschlichen Baseline-Ergebnisse im Vergleich zu modernsten Video-QA-Modellen zeigen eine signifikante Leistungslücke (91,4 % vs. 43,6 %), was darauf hindeutet, dass es erheblichen Spielraum für Verbesserungen im multimodalen Videoverständnis gibt. Datensatz, Baseline-Code und Challenge-Server sind verfügbar unter https://github.com/deepmind/perception_test
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten ist zunehmend wichtig geworden, da sie eine anspruchsvolle Steuerung von LLMs ermöglicht, z. B. indem sie dazu gebracht werden, vorgegebene Anweisungen zu befolgen, während sie gleichzeitig weniger toxisch bleiben. Dies erfordert jedoch eine erhebliche Menge an menschlichen Demonstrationen und Feedback. Kürzlich haben Open-Source-Modelle versucht, den Ausrichtungsprozess nachzuahmen, indem sie Daten von bereits ausgerichteten LLMs wie InstructGPT oder ChatGPT destilliert haben. Obwohl dieser Prozess den menschlichen Aufwand reduziert, hängt die Erstellung dieser Datensätze stark von den Lehrer-Modellen ab. In dieser Arbeit schlagen wir ein neuartiges Framework für das Ausrichtungslernen vor, das nahezu ohne menschliche Arbeit und ohne Abhängigkeit von vorab ausgerichteten LLMs auskommt. Zunächst führen wir ein Belohnungsmodell (RM) mit synthetischem Feedback durch, indem wir Antworten von Standard-LLMs verschiedener Größen und mit verschiedenen Prompts vergleichen. Anschließend verwenden wir das RM, um hochwertige Demonstrationen zu simulieren, um eine überwachte Policy zu trainieren und das Modell weiter durch Reinforcement Learning zu optimieren. Unser resultierendes Modell, Aligned Language Model with Synthetic Training dataset (ALMoST), übertrifft Open-Source-Modelle wie Alpaca, Dolly und OpenAssistant, die auf den Ausgaben von InstructGPT oder von Menschen annotierten Anweisungen trainiert wurden. Unser 7B-Modell übertrifft die 12-13B-Modelle in A/B-Tests, bei denen GPT-4 als Bewertungssystem verwendet wird, mit einer durchschnittlichen Gewinnrate von etwa 75 %.
Menschen erlernen offene Repertoires von Fähigkeiten, indem sie sich eigene Ziele vorstellen und diese üben. Dieser autotelische Lernprozess, wörtlich die Verfolgung selbstgenerierter (auto) Ziele (telos), wird zunehmend offener, je vielfältiger, abstrakter und kreativer die Ziele werden. Die daraus resultierende Erkundung des Raums möglicher Fähigkeiten wird durch eine interindividuelle Erkundung unterstützt: Zielrepräsentationen werden kulturell entwickelt und zwischen Individuen weitergegeben, insbesondere durch die Verwendung von Sprache. Aktuelle künstliche Agenten stützen sich meist auf vordefinierte Zielrepräsentationen, die entweder begrenzten (z. B. eine Liste von Anweisungen) oder unbegrenzten (z. B. den Raum möglicher visueller Eingaben) Zielräumen entsprechen, sind jedoch selten mit der Fähigkeit ausgestattet, ihre Zielrepräsentationen umzugestalten, neue Abstraktionen zu bilden oder kreative Ziele zu imaginieren. In diesem Artikel stellen wir einen autotelischen Agenten vor, der durch ein vortrainiertes Sprachmodell (LM) erweitert wird (LMA3) und dieses nutzt, um die Repräsentation, Generierung und das Lernen vielfältiger, abstrakter, menschenrelevanter Ziele zu unterstützen. Das LM wird als unvollkommenes Modell der menschlichen kulturellen Überlieferung verwendet; ein Versuch, Aspekte des menschlichen Common-Sense, der intuitiven Physik und der allgemeinen Interessen zu erfassen. Konkret unterstützt es drei Schlüsselkomponenten der autotelischen Architektur: 1)~einen Umbenenner, der die in den Trajektorien des Agenten erreichten Ziele beschreibt, 2)~einen Zielgenerator, der neue hochrangige Ziele vorschlägt, zusammen mit ihrer Zerlegung in Teilziele, die der Agent bereits beherrscht, und 3)~Belohnungsfunktionen für jedes dieser Ziele. Ohne auf manuell codierte Zielrepräsentationen, Belohnungsfunktionen oder Lehrpläne zurückzugreifen, zeigen wir, dass LMA3-Agenten eine große Vielfalt von Fähigkeiten in einer aufgabenunabhängigen, textbasierten Umgebung erlernen.
In dieser Arbeit führen wir eine umfassende Untersuchung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens durch, wobei wir uns speziell auf die Open Pretrained Transformers (OPT)-Modelle als repräsentative Vertreter solcher Modelle konzentrieren. Unsere Studie umfasst das Feinabstimmen von drei verschiedenen Größen von OPT auf einem sorgfältig kuratierten Korpus für logisches Denken, was zu zwei Gruppen von feinabgestimmten Modellen führt: OPT-R, ohne Erklärungen feinabgestimmt, und OPT-RE, mit Erklärungen feinabgestimmt. Anschließend bewerten wir alle Modelle anhand von 57 Aufgaben außerhalb des Trainingsbereichs, die aus dem SUPER-NATURALINSTRUCTIONS-Benchmark stammen und 26 verschiedene Denkfähigkeiten abdecken, wobei wir drei Prompting-Techniken verwenden. Durch ein umfassendes Raster von 27 Konfigurationen und 6.156 Testbewertungen untersuchen wir die Dimensionen der Feinabstimmung, des Promptings und der Skalierung, um die Rolle von Erklärungen bei verschiedenen Denkfähigkeiten zu verstehen. Unsere Ergebnisse zeigen, dass das Vorhandensein von Erklärungen in den Fewshot-Beispielen keinen signifikanten Einfluss auf die Leistung des Modells hat, wenn das Modell feinabgestimmt wurde, während es das nicht feinabgestimmte Modell positiv beeinflusst. Darüber hinaus beobachten wir einen leichten, aber konsistenten Anstieg der Klassifikationsgenauigkeit, wenn wir Erklärungen während des Promptings bzw. der Feinabstimmung einbeziehen. Schließlich geben wir Einblicke, welche Fähigkeiten am meisten von der Einbeziehung von Erklärungen während der Feinabstimmung und des Promptings profitieren, wie z. B. numerisches (+20,4 %) und analoges (+13,9 %) Denken, sowie Fähigkeiten, die vernachlässigbare oder negative Auswirkungen zeigen.
Datenknappheit ist ein entscheidendes Problem für die Entwicklung hochgradig mehrsprachiger NLP-Systeme. Dennoch ist es für viele unterrepräsentierte Sprachen (ULs) – Sprachen, bei denen die NLP-Forschung besonders weit hinter den Bedürfnissen der Nutzer zurückbleibt – machbar, kleine Datenmengen zu annotieren. Ausgehend von dieser Motivation schlagen wir XTREME-UP vor, einen Benchmark, der sich durch folgende Merkmale auszeichnet: seinen Fokus auf das Szenario mit knappen Daten anstelle von Zero-Shot; seinen Fokus auf nutzerzentrierte Aufgaben – Aufgaben, die bei Sprechern von ressourcenstarken Sprachen weit verbreitet sind; und seinen Fokus auf unterrepräsentierte Sprachen, bei denen dieses Szenario mit knappen Daten tendenziell am realistischsten ist. XTREME-UP bewertet die Fähigkeiten von Sprachmodellen über 88 unterrepräsentierte Sprachen hinweg in 9 zentralen nutzerzentrierten Technologien, darunter ASR, OCR, MT und Informationszugriffsaufgaben, die von allgemeinem Nutzen sind. Wir erstellen neue Datensätze für OCR, Autovervollständigung, semantische Analyse und Transliteration und bauen auf bestehende Datensätze für andere Aufgaben auf und verfeinern diese. XTREME-UP bietet Methoden zur Bewertung vieler Modellierungsszenarien, darunter textbasierte, multimodale (Vision, Audio und Text), überwachte Parameteroptimierung und In-Context-Learning. Wir bewerten gängige Modelle anhand des Benchmarks. Wir veröffentlichen den gesamten Code und die Skripte zum Trainieren und Bewerten von Modellen.