Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das BigCode-Projekt, eine offene wissenschaftliche Zusammenarbeit, die sich auf die verantwortungsvolle Entwicklung von Large Language Models für Code (Code LLMs) konzentriert, stellt StarCoder2 vor. In Partnerschaft mit Software Heritage (SWH) bauen wir The Stack v2 auf der Grundlage des digitalen Gemeinguts ihres Quellcode-Archivs auf. Neben den SWH-Repositories, die 619 Programmiersprachen umfassen, wählen wir sorgfältig andere hochwertige Datenquellen aus, wie GitHub-Pull-Requests, Kaggle-Notebooks und Code-Dokumentationen. Dies führt zu einem Trainingsdatensatz, der 4-mal größer ist als der erste StarCoder-Datensatz. Wir trainieren StarCoder2-Modelle mit 3B, 7B und 15B Parametern auf 3,3 bis 4,3 Billionen Tokens und bewerten sie gründlich anhand eines umfassenden Satzes von Code-LLM-Benchmarks. Wir stellen fest, dass unser kleines Modell, StarCoder2-3B, die meisten anderen Code LLMs ähnlicher Größe auf den meisten Benchmarks übertrifft und auch StarCoderBase-15B übertrifft. Unser großes Modell, StarCoder2-15B, übertrifft andere Modelle vergleichbarer Größe deutlich. Darüber hinaus erreicht es das Niveau von oder übertrifft CodeLlama-34B, ein Modell, das mehr als doppelt so groß ist. Obwohl DeepSeekCoder-33B das leistungsstärkste Modell bei der Code-Vervollständigung für Hochressourcen-Sprachen ist, stellen wir fest, dass StarCoder2-15B es auf Benchmarks für Mathematik und Code-Argumentation sowie bei mehreren Niedrigressourcen-Sprachen übertrifft. Wir stellen die Modellgewichte unter einer OpenRAIL-Lizenz zur Verfügung und gewährleisten vollständige Transparenz bezüglich der Trainingsdaten, indem wir die SoftWare Heritage Persistent IDentifiers (SWHIDs) der Quellcode-Daten veröffentlichen.
Reziduelle neuronale Netze (RNNs) bieten schnelle Inferenz und skalieren effizient auf langen Sequenzen, sind jedoch schwierig zu trainieren und schwer zu skalieren. Wir stellen Hawk vor, ein RNN mit gated linearen Rekurrenzen, und Griffin, ein hybrides Modell, das gated lineare Rekurrenzen mit lokalem Attention-Mechanismus kombiniert. Hawk übertrifft die berichtete Leistung von Mamba bei nachgelagerten Aufgaben, während Griffin die Leistung von Llama-2 erreicht, obwohl es mit über sechsmal weniger Tokens trainiert wurde. Wir zeigen außerdem, dass Griffin auf Sequenzen extrapolieren kann, die deutlich länger sind als die während des Trainings gesehenen. Unsere Modelle erreichen die Hardware-Effizienz von Transformern während des Trainings und bieten während der Inferenz eine geringere Latenz und eine deutlich höhere Durchsatzrate. Wir skalieren Griffin auf bis zu 14 Milliarden Parameter und erläutern, wie unsere Modelle für effizientes verteiltes Training partitioniert werden können.
Traditionelles Deep Learning übersieht oft Bytes, die grundlegenden Einheiten der digitalen Welt, in der alle Formen von Informationen und Operationen in binärem Format kodiert und manipuliert werden. Inspiriert vom Erfolg der nächsten Token-Vorhersage in der natürlichen Sprachverarbeitung, stellen wir bGPT vor, ein Modell mit der Vorhersage des nächsten Bytes, um die digitale Welt zu simulieren. bGPT erreicht die Leistung spezialisierter Modelle in verschiedenen Modalitäten, einschließlich Text, Audio und Bildern, und eröffnet neue Möglichkeiten zur Vorhersage, Simulation und Diagnose von Algorithmen oder Hardware-Verhalten. Es hat den Prozess der Konvertierung symbolischer Musikdaten nahezu fehlerfrei nachgebildet und dabei eine niedrige Fehlerrate von 0,0011 Bits pro Byte bei der Umwandlung von ABC-Notation in das MIDI-Format erreicht. Darüber hinaus zeigt bGPT außergewöhnliche Fähigkeiten bei der Simulation von CPU-Verhalten, mit einer Genauigkeit von über 99,99% bei der Ausführung verschiedener Operationen. Durch die Nutzung der nächsten Byte-Vorhersage können Modelle wie bGPT direkt aus umfangreichen binären Daten lernen und die komplexen Muster der digitalen Welt effektiv simulieren.
Die Qualität der Daten und Annotationen bestimmt die Obergrenze für die Qualität eines nachgelagerten Modells. Während es große Textkorpora und Bild-Text-Paare gibt, ist die Sammlung hochwertiger Video-Text-Daten wesentlich schwieriger. Erstens ist die manuelle Beschriftung zeitaufwendiger, da ein Annotator das gesamte Video ansehen muss. Zweitens besitzen Videos eine zeitliche Dimension, die aus mehreren zusammenhängenden Szenen besteht und mehrere Aktionen zeigt. Um ein Videodatensatz mit hochwertigen Beschriftungen zu erstellen, schlagen wir daher einen automatisierten Ansatz vor, der multimodale Eingaben wie textuelle Videobeschreibungen, Untertitel und einzelne Videobilder nutzt. Konkret kuratieren wir 3,8 Millionen hochauflösende Videos aus dem öffentlich verfügbaren HD-VILA-100M-Datensatz. Diese teilen wir in semantisch konsistente Videoclips auf und wenden mehrere Cross-Modality-Lehrermodelle an, um Beschriftungen für jedes Video zu erhalten. Anschließend feintunen wir ein Retrieval-Modell auf einer kleinen Teilmenge, bei der die beste Beschriftung für jedes Video manuell ausgewählt wird, und setzen das Modell dann auf den gesamten Datensatz ein, um die beste Beschriftung als Annotation auszuwählen. Auf diese Weise erhalten wir 70 Millionen Videos, die mit hochwertigen Textbeschriftungen gepaart sind. Wir nennen diesen Datensatz Panda-70M. Wir demonstrieren den Wert des vorgeschlagenen Datensatzes anhand von drei nachgelagerten Aufgaben: Videobeschriftung, Video- und Text-Retrieval sowie textgesteuerte Videogenerierung. Die auf den vorgeschlagenen Daten trainierten Modelle erzielen bei der Mehrheit der Metriken über alle Aufgaben hinweg deutlich bessere Ergebnisse.
Wir formulieren die Steuerung von menschenähnlichen Robotern in der realen Welt als ein Problem der Vorhersage des nächsten Tokens, ähnlich der Vorhersage des nächsten Wortes in der Sprache. Unser Modell ist ein kausaler Transformer, der durch autoregressive Vorhersage von sensomotorischen Trajektorien trainiert wird. Um der multimodalen Natur der Daten gerecht zu werden, führen wir die Vorhersage in einer modalitätsausgerichteten Weise durch und prognostizieren für jeden Eingabetoken den nächsten Token aus derselben Modalität. Diese allgemeine Formulierung ermöglicht es uns, Daten mit fehlenden Modalitäten zu nutzen, wie beispielsweise Video-Trajektorien ohne Aktionen. Wir trainieren unser Modell auf einer Sammlung von simulierten Trajektorien, die aus vorherigen neuronalen Netzwerk-Policies, modellbasierten Controllern, Motion-Capture-Daten und YouTube-Videos von Menschen stammen. Wir zeigen, dass unser Modell einen vollständig menschenähnlichen Roboter dazu befähigt, in San Francisco ohne vorheriges Training zu laufen. Unser Modell kann in die reale Welt übertragen werden, selbst wenn es nur mit 27 Stunden Laufdaten trainiert wurde, und kann auf Befehle generalisieren, die während des Trainings nicht gesehen wurden, wie beispielsweise rückwärts zu laufen. Diese Ergebnisse deuten auf einen vielversprechenden Weg hin, anspruchsvolle Steuerungsaufgaben in der realen Welt durch generatives Modellieren von sensomotorischen Trajektorien zu erlernen.
Wir stellen MOSAIC vor, eine modulare Architektur für Haushaltsroboter, um komplexe kollaborative Aufgaben zu bewältigen, wie beispielsweise das Kochen mit alltäglichen Nutzern. MOSAIC arbeitet eng mit Menschen zusammen, interagiert mit Nutzern in natürlicher Sprache, koordiniert mehrere Roboter und verwaltet ein offenes Vokabular von Alltagsgegenständen. Im Kern nutzt MOSAIC Modularität: Es greift auf mehrere groß angelegte, vortrainierte Modelle für allgemeine Aufgaben wie Spracherkennung und Bilderkennung zurück, während es gleichzeitig schlanke Module für die aufgabenspezifische Steuerung einsetzt. Wir evaluieren MOSAIC umfassend in 60 End-to-End-Versuchen, bei denen zwei Roboter mit einem menschlichen Nutzer zusammenarbeiten, um eine Kombination aus 6 Rezepten zuzubereiten. Zusätzlich testen wir einzelne Module intensiv mit 180 Episoden visuomotorischen Greifens, 60 Episoden der Vorhersage menschlicher Bewegungen und 46 Online-Nutzerbewertungen des Aufgabenplaners. Wir zeigen, dass MOSAIC effizient mit Menschen zusammenarbeiten kann, indem das Gesamtsystem End-to-End mit einem echten menschlichen Nutzer betrieben wird und 68,3 % (41/60) der kollaborativen Kochversuche mit 6 verschiedenen Rezepten erfolgreich abschließt, wobei die Unteraufgabenabschlussrate bei 91,6 % liegt. Abschließend diskutieren wir die Grenzen des aktuellen Systems und spannende offene Herausforderungen in diesem Bereich. Die Projektwebsite ist unter https://portal-cornell.github.io/MOSAIC/ zu finden.
Diffusionsmodelle haben große Erfolge bei der Synthese hochwertiger Bilder erzielt. Die Erzeugung hochauflösender Bilder mit Diffusionsmodellen bleibt jedoch aufgrund der enormen Rechenkosten eine Herausforderung, was zu einer prohibitiv hohen Latenz für interaktive Anwendungen führt. In diesem Artikel schlagen wir DistriFusion vor, um dieses Problem durch die Nutzung von Parallelität über mehrere GPUs zu lösen. Unser Verfahren teilt die Modelleingabe in mehrere Patches auf und weist jeden Patch einer GPU zu. Eine naive Implementierung eines solchen Algorithmus würde jedoch die Interaktion zwischen den Patches unterbrechen und die Bildqualität beeinträchtigen, während die Einbeziehung einer solchen Interaktion erhebliche Kommunikationskosten verursachen würde. Um dieses Dilemma zu überwinden, beobachten wir die hohe Ähnlichkeit zwischen den Eingaben benachbarter Diffusionsschritte und schlagen eine verschobene Patch-Parallelität vor, die den sequenziellen Charakter des Diffusionsprozesses nutzt, indem vorberechnete Feature-Maps aus dem vorherigen Zeitschritt wiederverwendet werden, um Kontext für den aktuellen Schritt bereitzustellen. Daher unterstützt unser Verfahren asynchrone Kommunikation, die durch Berechnungen gepipelt werden kann. Umfangreiche Experimente zeigen, dass unser Verfahren auf das aktuelle Stable Diffusion XL ohne Qualitätseinbußen angewendet werden kann und eine Beschleunigung von bis zu 6,1-fach auf acht NVIDIA A100s im Vergleich zu einer einzelnen GPU erreicht. Unser Code ist öffentlich unter https://github.com/mit-han-lab/distrifuser verfügbar.
Aktuelle Arbeiten haben gezeigt, dass auf Aufmerksamkeit basierende Sprachmodelle hervorragende Fähigkeiten beim Abruf besitzen, also der Fähigkeit, Erzeugungen in zuvor im Kontext gesehenen Tokens zu verankern. Allerdings wird die Effizienz von auf Aufmerksamkeit basierenden Modellen während des Inferenzprozesses durch den aggressiven Speicherverbrauch des KV-Caches eingeschränkt. In dieser Arbeit untersuchen wir, ob wir die Effizienz von Sprachmodellen verbessern können (z. B. durch Reduzierung des Speicherverbrauchs), ohne dabei den Abruf zu beeinträchtigen. Durch Experimente und theoretische Analysen an einer breiten Palette von Architekturen identifizieren wir einen zentralen Kompromiss zwischen der Zustandsgröße eines Modells und seiner Abruffähigkeit. Wir zeigen, dass effiziente Alternativen zur Aufmerksamkeit (z. B. H3, Mamba, RWKV) einen festen rekurrenten Zustand beibehalten, jedoch Schwierigkeiten beim Abruf haben. Wir schlagen BASED vor, eine einfache Architektur, die lineare und gleitende Fensteraufmerksamkeit kombiniert. Durch die Variation der Fenstergröße von BASED und der Feature-Dimension der linearen Aufmerksamkeit können wir die Zustandsgröße anpassen und die Pareto-Grenze der Abruf-Speicher-Kompromisskurve durchlaufen, wobei wir auf der einen Seite die volle Qualität der Aufmerksamkeit und auf der anderen Seite die geringe Zustandsgröße von Aufmerksamkeitsalternativen erreichen. Wir trainieren Sprachmodelle mit bis zu 1,3 Milliarden Parametern und zeigen, dass BASED die stärksten subquadratischen Modelle (z. B. Mamba) in Bezug auf die Perplexität erreicht und sie bei realen, abrufintensiven Aufgaben um 6,22 Genauigkeitspunkte übertrifft. Implementierungen der linearen Aufmerksamkeit sind oft weniger effizient als optimierte Standardimplementierungen der Aufmerksamkeit. Um BASED wettbewerbsfähig zu machen, entwickeln wir IO-bewusste Algorithmen, die einen 24-mal höheren Durchsatz bei der Sprachgeneration ermöglichen als FlashAttention-2, wenn 1024 Tokens mit 1,3-Milliarden-Parameter-Modellen generiert werden. Der Code für diese Arbeit ist unter https://github.com/HazyResearch/based verfügbar.
Große Sprachmodelle zeigen großes Potenzial bei der Generierung und Optimierung von Code. Weit verbreitete Sampling-Methoden wie Nucleus Sampling erhöhen die Diversität der Generierung, produzieren jedoch häufig wiederholte Samples bei niedrigen Temperaturen und inkohärente Samples bei hohen Temperaturen. Darüber hinaus muss der Temperaturkoeffizient für jede Aufgabe angepasst werden, was seine Nutzbarkeit einschränkt. Wir stellen Priority Sampling vor, eine einfache und deterministische Sampling-Technik, die einzigartige Samples erzeugt, die nach dem Vertrauen des Modells geordnet sind. Jedes neue Sample erweitert den Token mit der höchsten Wahrscheinlichkeit im erweiterten Suchbaum. Zusätzlich unterstützt Priority Sampling die Generierung basierend auf regulären Ausdrücken, was einen kontrollierbaren und strukturierten Explorationsprozess ermöglicht. Priority Sampling übertrifft Nucleus Sampling bei jeder Anzahl von Samples und steigert die Leistung des ursprünglichen Modells von einer Verbesserung von 2,87 % auf 5 % gegenüber -Oz. Darüber hinaus übertrifft es den Autotuner, der für die Generierung von Labels für das Training des ursprünglichen Modells verwendet wird, bereits nach nur 30 Samples.
Das Latent Consistency Model (LCM) erweitert das Consistency Model auf den latenten Raum und nutzt die Technik des geführten Konsistenz-Destillierens, um beeindruckende Leistungen bei der Beschleunigung der Text-zu-Bild-Synthese zu erzielen. Allerdings haben wir beobachtet, dass LCM Schwierigkeiten hat, Bilder mit sowohl Klarheit als auch detaillierter Komplexität zu erzeugen. Um diese Einschränkung zu adressieren, gehen wir zunächst auf die zugrunde liegenden Ursachen ein und erläutern diese. Unsere Untersuchung zeigt, dass das Hauptproblem auf Fehler in drei verschiedenen Bereichen zurückzuführen ist. Folglich führen wir das Trajectory Consistency Distillation (TCD) ein, das eine Trajektorien-Konsistenzfunktion und strategisches stochastisches Sampling umfasst. Die Trajektorien-Konsistenzfunktion reduziert die Destillationsfehler, indem sie den Rahmen der Selbstkonsistenz-Randbedingung erweitert und TCD die Fähigkeit verleiht, die gesamte Trajektorie der Probability Flow ODE präzise nachzuverfolgen. Zusätzlich ist das strategische stochastische Sampling speziell darauf ausgelegt, die akkumulierten Fehler, die beim mehrstufigen Konsistenz-Sampling auftreten, zu vermeiden, und es ist sorgfältig darauf abgestimmt, das TCD-Modell zu ergänzen. Experimente zeigen, dass TCD nicht nur die Bildqualität bei niedrigen NFEs (Number of Function Evaluations) erheblich verbessert, sondern auch detailliertere Ergebnisse im Vergleich zum Lehrer-Modell bei hohen NFEs liefert.
Die Synthese neuer Ansichten durch Diffusionsmodelle hat ein bemerkenswertes Potenzial für die Erzeugung vielfältiger und hochwertiger Bilder gezeigt. Dennoch führt der unabhängige Prozess der Bildgenerierung in diesen vorherrschenden Methoden zu Herausforderungen bei der Aufrechterhaltung der Mehransichtskonsistenz. Um dies zu adressieren, stellen wir ViewFusion vor, einen neuartigen, trainingsfreien Algorithmus, der nahtlos in bestehende vortrainierte Diffusionsmodelle integriert werden kann. Unser Ansatz verwendet eine autoregressive Methode, die implizit zuvor generierte Ansichten als Kontext für die nächste Ansichtsgenerierung nutzt und so eine robuste Mehransichtskonsistenz während des Prozesses der neuen Ansichtsgenerierung gewährleistet. Durch einen Diffusionsprozess, der bekannte Ansichtsinformationen über interpolierte Entrauschung fusioniert, erweitert unser Framework erfolgreich Einzelansicht-bedingte Modelle, um in Mehransicht-bedingten Einstellungen zu arbeiten, ohne zusätzliches Fein-Tuning. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit von ViewFusion bei der Erzeugung konsistenter und detaillierter neuer Ansichten.