Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In den letzten Jahren war eine rasante Entwicklung von großen Sprachmodellen (LLMs) zu beobachten. Trotz ihrer starken Fähigkeiten in vielen Sprachverständnisaufgaben schränkt die hohe Rechenlast die Anwendung von LLMs erheblich ein, insbesondere wenn sie auf Edge-Geräten eingesetzt werden sollen. In diesem Artikel schlagen wir einen Quantisierungsbewussten Low-Rank-Adaptationsalgorithmus (QA-LoRA) vor. Die Motivation liegt in den unausgeglichenen Freiheitsgraden von Quantisierung und Anpassung, und die Lösung besteht darin, gruppenweise Operatoren zu verwenden, die den Freiheitsgrad der Quantisierung erhöhen und gleichzeitig den der Anpassung verringern. QA-LoRA lässt sich mit wenigen Codezeilen einfach implementieren und stattet das ursprüngliche LoRA mit zweifachen Fähigkeiten aus: (i) Während des Feinabstimmens werden die Gewichte des LLM quantisiert (z.B. in INT4), um Zeit- und Speicherbedarf zu reduzieren; (ii) Nach dem Feinabstimmen werden das LLM und die Hilfsgewichte nahtlos in ein quantisiertes Modell integriert, ohne dass es zu Genauigkeitsverlusten kommt. Wir wenden QA-LoRA auf die LLaMA- und LLaMA2-Modellfamilien an und validieren seine Wirksamkeit in verschiedenen Feinabstimmungsdatensätzen und nachgelagerten Szenarien. Der Code wird unter https://github.com/yuhuixu1993/qa-lora verfügbar sein.
Diese Arbeit zielt darauf ab, ein hochwertiges Text-zu-Video (T2V)-Generierungsmodell zu entwickeln, indem ein vortrainiertes Text-zu-Bild (T2I)-Modell als Grundlage genutzt wird. Es handelt sich um eine äußerst wünschenswerte, aber anspruchsvolle Aufgabe, gleichzeitig a) die Synthese von visuell realistischen und zeitlich kohärenten Videos zu erreichen, während b) die starke kreative Generierungsfähigkeit des vortrainierten T2I-Modells erhalten bleibt. Zu diesem Zweck schlagen wir LaVie vor, ein integriertes Videogenerierungsframework, das auf kaskadierten Video-Latent-Diffusionsmodellen basiert und ein Basismodell für T2V, ein Modell für zeitliche Interpolation und ein Modell für Video-Super-Resolution umfasst. Unsere zentralen Erkenntnisse sind zweifach: 1) Wir zeigen, dass die Einbindung einfacher zeitlicher Selbstaufmerksamkeiten, gekoppelt mit rotatorischer Positionskodierung, die zeitlichen Korrelationen in Videodaten ausreichend erfasst. 2) Darüber hinaus bestätigen wir, dass der Prozess des gemeinsamen Feinabstimmens von Bildern und Videos eine entscheidende Rolle bei der Erzeugung hochwertiger und kreativer Ergebnisse spielt. Um die Leistung von LaVie zu verbessern, stellen wir einen umfassenden und vielfältigen Videodatensatz namens Vimeo25M bereit, der aus 25 Millionen Text-Video-Paaren besteht und Qualität, Vielfalt und ästhetischen Reiz priorisiert. Umfangreiche Experimente zeigen, dass LaVie sowohl quantitativ als auch qualitativ state-of-the-art Leistungen erzielt. Darüber hinaus demonstrieren wir die Vielseitigkeit der vortrainierten LaVie-Modelle in verschiedenen Anwendungen zur Generierung langer Videos und zur personalisierten Videosynthese.
Die Berechnung in einem typischen Transformer-basierten großen Sprachmodell (LLM) kann durch die Batch-Größe, die versteckte Dimension, die Anzahl der Schichten und die Sequenzlänge charakterisiert werden. Bisher haben Systemarbeiten zur Beschleunigung des LLM-Trainings sich auf die ersten drei Dimensionen konzentriert: Datenparallelität für die Batch-Größe, Tensorparallelität für die versteckte Größe und Pipeline-Parallelität für die Modelltiefe oder Schichten. Diese weitgehend untersuchten Formen der Parallelität sind nicht auf lange Sequenz-Transformer-Modelle ausgerichtet oder optimiert. Angesichts der praktischen Anwendungsanforderungen für lange Sequenz-LLMs wird die Aufmerksamkeit erneut auf die Sequenzparallelität gelenkt. Allerdings sind bestehende Arbeiten zur Sequenzparallelität durch Speicher-Kommunikations-Ineffizienz eingeschränkt, was ihre Skalierbarkeit auf große Modelle mit langen Sequenzen begrenzt. In dieser Arbeit stellen wir DeepSpeed-Ulysses vor, eine neuartige, portable und effektive Methode zur Ermöglichung eines hocheffizienten und skalierbaren LLM-Trainings mit extrem langen Sequenzlängen. DeepSpeed-Ulysses partitioniert im Kern die Eingabedaten entlang der Sequenzdimension und verwendet eine effiziente All-to-All-Kollektivkommunikation für die Aufmerksamkeitsberechnung. Die theoretische Kommunikationsanalyse zeigt, dass während andere Methoden Kommunikationsoverhead mit zunehmender Sequenzlänge verursachen, DeepSpeed-Ulysses ein konstantes Kommunikationsvolumen beibehält, wenn die Sequenzlänge und die Rechengeräte proportional erhöht werden. Darüber hinaus zeigen experimentelle Auswertungen, dass DeepSpeed-Ulysses 2,5-mal schneller mit einer 4-mal längeren Sequenzlänge trainiert als die bestehende Methode SOTA-Baseline.
Jüngste Fortschritte in Deep-Learning-Methoden wie LLMs und Diffusionsmodellen haben den Bedarf an verbesserten Quantisierungsmethoden geschaffen, die den rechenintensiven Anforderungen dieser modernen Architekturen gerecht werden können, ohne die Genauigkeit zu beeinträchtigen. Um dieses Ziel zu erreichen, untersuchen wir die Vorteile von FP8-Datenformaten für die Post-Training-Quantisierung über 75 einzigartige Netzwerkarchitekturen hinweg, die eine breite Palette von Aufgaben abdecken, darunter maschinelle Übersetzung, Sprachmodellierung, Textgenerierung, Bildklassifizierung, -generierung und -segmentierung. Wir analysieren drei verschiedene FP8-Darstellungen (E5M2, E4M3 und E3M4), um die Auswirkungen unterschiedlicher Kompromisse zwischen dynamischem Bereich und Präzision auf die Modellgenauigkeit zu untersuchen. Basierend auf unserer umfangreichen Studie haben wir einen Quantisierungs-Workflow entwickelt, der sich über verschiedene Netzwerkarchitekturen hinweg verallgemeinern lässt. Unsere empirischen Ergebnisse zeigen, dass FP8-Formate INT8 in mehreren Aspekten übertreffen, einschließlich der Arbeitslastabdeckung (92,64 % gegenüber 65,87 %), der Modellgenauigkeit und der Eignung für ein breiteres Spektrum von Operationen. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass E4M3 besser für NLP-Modelle geeignet ist, während E3M4 bei Computer-Vision-Aufgaben geringfügig besser abschneidet als E4M3. Der Code ist öffentlich auf Intel Neural Compressor verfügbar: https://github.com/intel/neural-compressor.
Wir untersuchen das interne Verhalten von Transformer-basierten Large Language Models (LLMs), wenn sie faktisch inkorrekte Texte generieren. Wir schlagen vor, faktische Abfragen als Constraint Satisfaction Problems zu modellieren und nutzen diesen Rahmen, um zu untersuchen, wie das Modell intern mit faktischen Einschränkungen interagiert. Insbesondere entdecken wir eine starke positive Beziehung zwischen der Aufmerksamkeit des Modells auf Constraint-Tokens und der faktischen Genauigkeit seiner Antworten. In unserem kuratierten Satz von 11 Datensätzen mit über 40.000 Prompts untersuchen wir die Aufgabe der Vorhersage faktischer Fehler mit der Llama-2-Familie über alle Skalen hinweg (7B, 13B, 70B). Wir schlagen SAT Probe vor, eine Methode zur Untersuchung von Self-Attention-Mustern, die die Erfüllung von Einschränkungen und faktische Fehler vorhersagen und eine frühzeitige Fehlererkennung ermöglichen kann. Der Ansatz und die Ergebnisse zeigen, wie das mechanistische Verständnis von Faktizität in LLMs die Zuverlässigkeit verbessern kann.