Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Durchbruchserfolge im maschinellen Lernen sind hauptsächlich auf Skalierung zurückzuführen: nämlich groß angelegte, auf Aufmerksamkeit basierende Architekturen und Datensätze von beispiellosem Umfang. Diese Arbeit untersucht die Auswirkungen des Trainings in großem Maßstab für Schach. Im Gegensatz zu traditionellen Schachengines, die auf komplexen Heuristiken, expliziter Suche oder einer Kombination aus beidem basieren, trainieren wir ein Transformer-Modell mit 270 Millionen Parametern mittels überwachtem Lernen auf einem Datensatz von 10 Millionen Schachpartien. Wir annotieren jede Stellung im Datensatz mit Aktionswerten, die von der leistungsstarken Stockfish 16 Engine bereitgestellt werden, was zu etwa 15 Milliarden Datenpunkten führt. Unser größtes Modell erreicht eine Lichess-Blitz-Elo von 2895 gegen menschliche Spieler und löst erfolgreich eine Reihe anspruchsvoller Schachrätsel, ohne domänenspezifische Anpassungen oder explizite Suchalgorithmen zu verwenden. Wir zeigen außerdem, dass unser Modell die Policy- und Value-Networks von AlphaZero (ohne MCTS) und GPT-3.5-turbo-instruct übertrifft. Eine systematische Untersuchung der Modell- und Datensatzgröße zeigt, dass starke Schachleistungen nur bei ausreichender Skalierung entstehen. Um unsere Ergebnisse zu validieren, führen wir eine umfangreiche Reihe von Ablationen zu Designentscheidungen und Hyperparametern durch.
Bildschirmbenutzeroberflächen (UIs) und Infografiken, die eine ähnliche visuelle Sprache und Designprinzipien teilen, spielen eine wichtige Rolle in der menschlichen Kommunikation und der Mensch-Maschine-Interaktion. Wir stellen ScreenAI vor, ein Vision-Language-Modell, das sich auf das Verständnis von UIs und Infografiken spezialisiert. Unser Modell verbessert die PaLI-Architektur durch die flexible Patching-Strategie von pix2struct und wird auf einer einzigartigen Mischung von Datensätzen trainiert. Im Kern dieser Mischung liegt eine neuartige Bildschirmannotationsaufgabe, bei der das Modell den Typ und die Position von UI-Elementen identifizieren muss. Wir verwenden diese Textannotationen, um Bildschirme für Large Language Models zu beschreiben und automatisch Frage-Antwort- (QA), UI-Navigations- und Zusammenfassungstrainingsdatensätze in großem Maßstab zu generieren. Wir führen Ablationsstudien durch, um die Auswirkungen dieser Designentscheidungen zu demonstrieren. Mit nur 5 Milliarden Parametern erzielt ScreenAI neue State-of-the-Art-Ergebnisse bei UI- und Infografik-basierten Aufgaben (Multi-page DocVQA, WebSRC, MoTIF und Widget Captioning) und neue Best-in-Class-Leistungen bei anderen (Chart QA, DocVQA und InfographicVQA) im Vergleich zu Modellen ähnlicher Größe. Schließlich veröffentlichen wir drei neue Datensätze: einen, der sich auf die Bildschirmannotationsaufgabe konzentriert, und zwei weitere, die sich auf Frage-Antwort-Aufgaben fokussieren.
Direkte Ausrichtung basierend auf Präferenzen (Direct Alignment from Preferences, DAP) Methoden, wie beispielsweise DPO, sind kürzlich als effiziente Alternativen zum Reinforcement Learning from Human Feedback (RLHF) aufgetaucht, die kein separates Belohnungsmodell benötigen. Die in DAP-Methoden verwendeten Präferenzdatensätze werden jedoch in der Regel vor dem Training gesammelt und nie aktualisiert, sodass das Feedback rein offline erfolgt. Darüber hinaus werden die Antworten in diesen Datensätzen oft von einem Sprachmodell abgetastet, das sich von dem zu alignenden Modell unterscheidet, und da sich das Modell während des Trainings weiterentwickelt, ist die Ausrichtungsphase zwangsläufig off-policy. In dieser Studie postulieren wir, dass Online-Feedback entscheidend ist und DAP-Methoden verbessert. Unsere Methode, Online AI Feedback (OAIF), verwendet ein LLM als Annotator: In jeder Trainingsiteration werden zwei Antworten aus dem aktuellen Modell abgetastet und der LLM-Annotator aufgefordert, die bevorzugte Antwort auszuwählen, wodurch Online-Feedback bereitgestellt wird. Trotz ihrer Einfachheit zeigen wir durch menschliche Bewertungen in mehreren Aufgaben, dass OAIF sowohl offline DAP- als auch RLHF-Methoden übertrifft. Wir zeigen weiter, dass das in OAIF genutzte Feedback leicht steuerbar ist, indem dem LLM-Annotator Anweisungen gegeben werden.
Die Erstellung von 3D-Inhalten hat sowohl in Bezug auf die Qualität als auch die Geschwindigkeit bedeutende Fortschritte erzielt. Obwohl aktuelle Feed-Forward-Modelle 3D-Objekte in Sekunden erzeugen können, ist ihre Auflösung durch den intensiven Rechenaufwand während des Trainings begrenzt. In diesem Artikel stellen wir das Large Multi-View Gaussian Model (LGM) vor, ein neuartiges Framework, das darauf ausgelegt ist, hochauflösende 3D-Modelle aus Textbeschreibungen oder Einzelbildern zu generieren. Unsere zentralen Erkenntnisse sind zweifach: 1) 3D-Darstellung: Wir schlagen Multi-View-Gauß-Features als eine effiziente und dennoch leistungsstarke Darstellung vor, die anschließend für differenzierbares Rendering fusioniert werden können. 2) 3D-Backbone: Wir präsentieren ein asymmetrisches U-Net als einen hochdurchsatzfähigen Backbone, der auf Multi-View-Bildern operiert, die durch die Nutzung von Multi-View-Diffusionsmodellen aus Text- oder Einzelbild-Eingaben erzeugt werden können. Umfangreiche Experimente demonstrieren die hohe Detailtreue und Effizienz unseres Ansatzes. Bemerkenswerterweise behalten wir die schnelle Geschwindigkeit bei, 3D-Objekte innerhalb von 5 Sekunden zu generieren, während wir die Trainingsauflösung auf 512 erhöhen und somit eine hochauflösende 3D-Inhaltserzeugung erreichen.
Wir stellen EfficientViT-SAM vor, eine neue Familie von beschleunigten Segment-Anything-Modellen. Wir behalten den leichten Prompt-Encoder und Mask-Decoder von SAM bei, ersetzen jedoch den rechenintensiven Bild-Encoder durch EfficientViT. Für das Training beginnen wir mit der Wissensdestillation vom SAM-ViT-H-Bild-Encoder zu EfficientViT. Anschließend führen wir ein End-to-End-Training auf dem SA-1B-Datensatz durch. Dank der Effizienz und Kapazität von EfficientViT bietet EfficientViT-SAM eine gemessene TensorRT-Beschleunigung von 48,9x auf der A100-GPU im Vergleich zu SAM-ViT-H, ohne dabei an Leistung einzubüßen. Unser Code und die vortrainierten Modelle sind unter https://github.com/mit-han-lab/efficientvit verfügbar.
Transformer-basierte große Sprachmodelle (LLMs) werden mittlerweile von Hunderten Millionen Nutzern eingesetzt. Die Inferenz von LLMs wird üblicherweise in Batches von Sequenzen durchgeführt, die ein gemeinsames Präfix teilen, wie beispielsweise Few-Shot-Beispiele oder ein System-Prompt für Chatbots. Das Decodieren in diesem Large-Batch-Setting kann durch den Attention-Mechanismus zum Engpass werden, der große Key-Value (KV)-Caches aus dem Speicher liest und ineffiziente Matrix-Vektor-Produkte für jede Sequenz im Batch berechnet. In dieser Arbeit stellen wir Hydragen vor, eine hardwarebewusste, exakte Implementierung von Attention mit gemeinsamen Präfixen. Hydragen berechnet die Attention für das gemeinsame Präfix und die einzigartigen Suffixe separat. Diese Zerlegung ermöglicht eine effiziente Präfix-Attention, indem Anfragen über Sequenzen hinweg gebündelt werden, redundante Speicherzugriffe reduziert werden und hardwarefreundliche Matrixmultiplikationen genutzt werden können. Unsere Methode kann den end-to-end-Durchsatz von LLMs um bis zu 32x im Vergleich zu konkurrierenden Baselines steigern, wobei die Beschleunigung mit der Batch-Größe und der Länge des gemeinsamen Präfixes zunimmt. Hydragen ermöglicht auch die Verwendung sehr langer gemeinsamer Kontexte: Bei einer hohen Batch-Größe verringert sich der Durchsatz von Hydragen bei einer Erhöhung der Präfixlänge von 1K auf 16K Token um weniger als 15%, während der Durchsatz der Baselines um über 90% sinkt. Hydragen geht über eine einfache Präfix-Suffix-Zerlegung hinaus und kann auf baumbasierte Prompt-Sharing-Muster angewendet werden, wodurch wir die Inferenzzeit bei Wettbewerbsprogrammierungsproblemen um weitere 55% reduzieren können.
Große Sprachmodelle lösen zunehmend Aufgaben, von denen allgemein angenommen wird, dass sie menschliches Denkvermögen erfordern. Dennoch schneiden diese Modelle bei Benchmarks für allgemeine Intelligenz wie dem Abstraction and Reasoning Corpus (ARC) immer noch sehr schlecht ab. In diesem Artikel behandeln wir ARC als ein Problem der Programmierung durch Beispiele und stellen eine neuartige und skalierbare Methode zur Selbstverbesserung von Sprachmodellen vor, die wir Code Iteration (CodeIt) nennen. Unsere Methode wechselt iterativ zwischen 1) Programm-Sampling und Hindsight-Relabeling sowie 2) Lernen durch priorisiertes Experience Replay. Indem wir das Ziel einer Episode (d.h. die Zielprogrammausgabe bei gegebenem Eingabewert) auf die tatsächlich erzeugte Ausgabe des gesampelten Programms umlabeln, bewältigt unsere Methode effektiv die extreme Sparsity von Belohnungen in der Programmsynthese. Durch die Anwendung von CodeIt auf den ARC-Datensatz zeigen wir, dass priorisiertes Hindsight Replay in Kombination mit Pre-Training und Datenaugmentierung zu erfolgreicher intertask-Generalisierung führt. CodeIt ist der erste neuro-symbolische Ansatz, der auf den gesamten ARC-Evaluierungsdatensatz skaliert. Unsere Methode löst 15 % der ARC-Evaluierungsaufgaben und erreicht damit state-of-the-art Leistung, wobei sie bestehende neuronale und symbolische Baselines übertrifft.
Lineare Attention-Mechanismen haben Potenzial gezeigt, die Effizienz von Transformern zu verbessern, indem sie die quadratische Komplexität der Attention auf eine lineare Abhängigkeit von der Sequenzlänge reduzieren. Dies eröffnet vielversprechende Möglichkeiten für (1) das Training linearer Transformer von Grund auf, (2) die „feinabgestimmte Konvertierung“ von aufgaben-spezifischen Transformern in lineare Versionen, die die Aufgabenleistung wiederherstellen, und (3) die „vorab trainierte Konvertierung“ von Transformern wie großen Sprachmodellen in lineare Versionen, die für nachgelagerte Aufgaben feinabgestimmt werden können. Allerdings schneiden lineare Attention-Mechanismen oft qualitativ schlechter ab als die Standard-Softmax-Attention. Um diese Leistungslücke zu schließen, stellen wir fest, dass frühere lineare Attention-Mechanismen Schlüsseleigenschaften der Softmax-Attention, die mit guter Leistung verbunden sind, vermissen: niedrige Entropie (oder „spitze“) Gewichte und Monotonie des Skalarprodukts. Wir beobachten weiterhin überraschend einfache Feature-Maps, die diese Eigenschaften beibehalten und die Leistung der Softmax-Attention erreichen, aber ineffizient in der linearen Attention zu berechnen sind. Daher schlagen wir Hedgehog vor, einen lernbaren linearen Attention-Mechanismus, der die spitzen und monotonen Eigenschaften der Softmax-Attention beibehält, während er die lineare Komplexität bewahrt. Hedgehog verwendet einfache trainierbare MLPs, um Attention-Gewichte zu erzeugen, die die Softmax-Attention nachahmen. Experimente zeigen, dass Hedgehog über 99 % der Qualität des Standard-Transformers in Trainings- und Feinabstimmungsszenarien wiederherstellt und frühere lineare Attention-Mechanismen um bis zu 6 Perplexity-Punkte auf WikiText-103 mit kausalen GPTs und um bis zu 8,7 GLUE-Score-Punkte bei feinabgestimmten bidirektionalen BERTs übertrifft. Hedgehog ermöglicht auch die vorab trainierte Konvertierung. Die Konvertierung eines vorab trainierten GPT-2 in eine lineare Attention-Variante erreicht einen state-of-the-art Perplexity-Wert von 16,7 auf WikiText-103 für 125M subquadratische Decoder-Modelle. Schließlich wandeln wir einen vorab trainierten Llama-2 7B in einen funktionsfähigen linearen Attention-Llama um. Mit Low-Rank-Adaptation erreicht Hedgehog-Llama2 7B 28,1 höhere ROUGE-1-Punkte gegenüber dem Basis-Standard-Attention-Modell, während frühere lineare Attention-Mechanismen zu einem Rückgang von 16,5 Punkten führen.
Die Erzeugung von langen 44,1-kHz-Stereo-Audiodateien aus Textanweisungen kann rechenintensiv sein. Darüber hinaus berücksichtigen die meisten bisherigen Arbeiten nicht, dass Musik und Soundeffekte natürlicherweise in ihrer Dauer variieren. Unsere Forschung konzentriert sich auf die effiziente Generierung von langen, variablen Stereo-Musik- und Sounddateien bei 44,1 kHz mithilfe von Textanweisungen und einem generativen Modell. Stable Audio basiert auf latenter Diffusion, wobei das Latent durch einen vollständig faltenden Variations-Autoencoder definiert wird. Es wird durch Textanweisungen sowie Zeit-Einbettungen konditioniert, was eine präzise Kontrolle über den Inhalt und die Länge der generierten Musik und Sounds ermöglicht. Stable Audio kann Stereo-Signale von bis zu 95 Sekunden bei 44,1 kHz in 8 Sekunden auf einer A100-GPU rendern. Trotz seiner Recheneffizienz und schnellen Inferenz gehört es zu den besten in zwei öffentlichen Text-zu-Musik- und -Audio-Benchmarks und kann, im Gegensatz zu state-of-the-art-Modellen, Musik mit Struktur und Stereo-Sounds erzeugen.
In diesem Artikel präsentieren wir eine neuartige Methode, die die Inferenzlatenz von Modellen bei der verteilten Bereitstellung von Large Language Models (LLMs) reduziert. Unser Beitrag ist ein optimiertes Inferenzbereitstellungsschema, das die aktuellen Einschränkungen von state-of-the-art Quantisierungskernen in Kombination mit Tensor Parallelism (TP) adressiert. Unsere Methode bewahrt die Datenlokalität in GPU-Speicherzugriffsmustern und nutzt a priori Wissen über TP, um die globale Kommunikation zu reduzieren. Wir zeigen eine Beschleunigung von bis zu 1,81x gegenüber bestehenden Methoden für Llama-70B und bis zu 1,78x für die MLP-Schichtproblemgrößen von IBM WatsonX's Granite-20B auf A100- und H100-NVIDIA-DGX-Systemen für verschiedene TP-Einstellungen.
N:M-Strukturierte Sparsity hat aufgrund des relativ geringen Overheads und der verbesserten Effizienz erhebliches Interesse geweckt. Darüber hinaus bietet diese Form der Sparsity erhebliche Vorteile bei der Reduzierung des Speicherbedarfs, da sie einen geringen Darstellungs-Overhead aufweist. Es gab Bemühungen, Trainingsmethoden für N:M-strukturierte Sparsity zu entwickeln, die sich jedoch hauptsächlich auf Regionen mit geringer Sparsity (ca. 50 %) konzentrieren. Dennoch neigt die Leistung von Modellen, die mit diesen Ansätzen trainiert wurden, in Regionen mit hoher Sparsity (>80 %) abzufallen. In dieser Arbeit untersuchen wir die Wirksamkeit bestehender Sparse-Training-Methoden in Regionen mit hoher Sparsity und argumentieren, dass diese Methoden die Modellqualität nicht auf dem Niveau von Regionen mit geringer Sparsity halten können. Wir zeigen, dass der wesentliche Faktor, der zu dieser Diskrepanz beiträgt, das Vorhandensein erhöhter Rauschpegel in den Gradientenbeträgen ist. Um diesen unerwünschten Effekt zu mildern, setzen wir Abklingmechanismen ein, um den Fluss der Gradienten zu den beschnittenen Elementen schrittweise einzuschränken. Unser Ansatz verbessert die Modellqualität in Regionen mit hoher Sparsity um bis zu 2 % bzw. 5 % bei visuellen und Sprachmodellen. Wir bewerten auch den Kompromiss zwischen Modellgenauigkeit und Trainingsrechenkosten in Bezug auf FLOPs. Bei gleichen Trainings-FLOPs erzielt unsere Methode eine bessere Leistung im Vergleich zu herkömmlichen Sparse-Training-Methoden und zeigt eine Genauigkeitsverbesserung von bis zu 2 %. Der Quellcode ist verfügbar unter https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.