Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

QA-LoRA: Quantisierungsbewusste Low-Rank-Adaption von großen Sprachmodellen
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Sep 26, 2023

Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian

448

In den letzten Jahren war eine rasante Entwicklung von großen Sprachmodellen (LLMs) zu beobachten. Trotz ihrer starken Fähigkeiten in vielen Sprachverständnisaufgaben schränkt die hohe Rechenlast die Anwendung von LLMs erheblich ein, insbesondere wenn sie auf Edge-Geräten eingesetzt werden sollen. In diesem Artikel schlagen wir einen Quantisierungsbewussten Low-Rank-Adaptationsalgorithmus (QA-LoRA) vor. Die Motivation liegt in den unausgeglichenen Freiheitsgraden von Quantisierung und Anpassung, und die Lösung besteht darin, gruppenweise Operatoren zu verwenden, die den Freiheitsgrad der Quantisierung erhöhen und gleichzeitig den der Anpassung verringern. QA-LoRA lässt sich mit wenigen Codezeilen einfach implementieren und stattet das ursprüngliche LoRA mit zweifachen Fähigkeiten aus: (i) Während des Feinabstimmens werden die Gewichte des LLM quantisiert (z.B. in INT4), um Zeit- und Speicherbedarf zu reduzieren; (ii) Nach dem Feinabstimmen werden das LLM und die Hilfsgewichte nahtlos in ein quantisiertes Modell integriert, ohne dass es zu Genauigkeitsverlusten kommt. Wir wenden QA-LoRA auf die LLaMA- und LLaMA2-Modellfamilien an und validieren seine Wirksamkeit in verschiedenen Feinabstimmungsdatensätzen und nachgelagerten Szenarien. Der Code wird unter https://github.com/yuhuixu1993/qa-lora verfügbar sein.

LAVIE: Hochwertige Videogenerierung mit kaskadierten latenten Diffusionsmodellen
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Sep 26, 2023

Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu

423

Diese Arbeit zielt darauf ab, ein hochwertiges Text-zu-Video (T2V)-Generierungsmodell zu entwickeln, indem ein vortrainiertes Text-zu-Bild (T2I)-Modell als Grundlage genutzt wird. Es handelt sich um eine äußerst wünschenswerte, aber anspruchsvolle Aufgabe, gleichzeitig a) die Synthese von visuell realistischen und zeitlich kohärenten Videos zu erreichen, während b) die starke kreative Generierungsfähigkeit des vortrainierten T2I-Modells erhalten bleibt. Zu diesem Zweck schlagen wir LaVie vor, ein integriertes Videogenerierungsframework, das auf kaskadierten Video-Latent-Diffusionsmodellen basiert und ein Basismodell für T2V, ein Modell für zeitliche Interpolation und ein Modell für Video-Super-Resolution umfasst. Unsere zentralen Erkenntnisse sind zweifach: 1) Wir zeigen, dass die Einbindung einfacher zeitlicher Selbstaufmerksamkeiten, gekoppelt mit rotatorischer Positionskodierung, die zeitlichen Korrelationen in Videodaten ausreichend erfasst. 2) Darüber hinaus bestätigen wir, dass der Prozess des gemeinsamen Feinabstimmens von Bildern und Videos eine entscheidende Rolle bei der Erzeugung hochwertiger und kreativer Ergebnisse spielt. Um die Leistung von LaVie zu verbessern, stellen wir einen umfassenden und vielfältigen Videodatensatz namens Vimeo25M bereit, der aus 25 Millionen Text-Video-Paaren besteht und Qualität, Vielfalt und ästhetischen Reiz priorisiert. Umfangreiche Experimente zeigen, dass LaVie sowohl quantitativ als auch qualitativ state-of-the-art Leistungen erzielt. Darüber hinaus demonstrieren wir die Vielseitigkeit der vortrainierten LaVie-Modelle in verschiedenen Anwendungen zur Generierung langer Videos und zur personalisierten Videosynthese.

DeepSpeed Ulysses: Systemoptimierungen zur Ermöglichung des Trainings von Transformer-Modellen mit extrem langen Sequenzen
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Sep 25, 2023

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He

201

Die Berechnung in einem typischen Transformer-basierten großen Sprachmodell (LLM) kann durch die Batch-Größe, die versteckte Dimension, die Anzahl der Schichten und die Sequenzlänge charakterisiert werden. Bisher haben Systemarbeiten zur Beschleunigung des LLM-Trainings sich auf die ersten drei Dimensionen konzentriert: Datenparallelität für die Batch-Größe, Tensorparallelität für die versteckte Größe und Pipeline-Parallelität für die Modelltiefe oder Schichten. Diese weitgehend untersuchten Formen der Parallelität sind nicht auf lange Sequenz-Transformer-Modelle ausgerichtet oder optimiert. Angesichts der praktischen Anwendungsanforderungen für lange Sequenz-LLMs wird die Aufmerksamkeit erneut auf die Sequenzparallelität gelenkt. Allerdings sind bestehende Arbeiten zur Sequenzparallelität durch Speicher-Kommunikations-Ineffizienz eingeschränkt, was ihre Skalierbarkeit auf große Modelle mit langen Sequenzen begrenzt. In dieser Arbeit stellen wir DeepSpeed-Ulysses vor, eine neuartige, portable und effektive Methode zur Ermöglichung eines hocheffizienten und skalierbaren LLM-Trainings mit extrem langen Sequenzlängen. DeepSpeed-Ulysses partitioniert im Kern die Eingabedaten entlang der Sequenzdimension und verwendet eine effiziente All-to-All-Kollektivkommunikation für die Aufmerksamkeitsberechnung. Die theoretische Kommunikationsanalyse zeigt, dass während andere Methoden Kommunikationsoverhead mit zunehmender Sequenzlänge verursachen, DeepSpeed-Ulysses ein konstantes Kommunikationsvolumen beibehält, wenn die Sequenzlänge und die Rechengeräte proportional erhöht werden. Darüber hinaus zeigen experimentelle Auswertungen, dass DeepSpeed-Ulysses 2,5-mal schneller mit einer 4-mal längeren Sequenzlänge trainiert als die bestehende Methode SOTA-Baseline.

Effiziente Nachträgliche Quantisierung mit FP8-Formaten
Efficient Post-training Quantization with FP8 Formats

Sep 26, 2023

Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang

112

Jüngste Fortschritte in Deep-Learning-Methoden wie LLMs und Diffusionsmodellen haben den Bedarf an verbesserten Quantisierungsmethoden geschaffen, die den rechenintensiven Anforderungen dieser modernen Architekturen gerecht werden können, ohne die Genauigkeit zu beeinträchtigen. Um dieses Ziel zu erreichen, untersuchen wir die Vorteile von FP8-Datenformaten für die Post-Training-Quantisierung über 75 einzigartige Netzwerkarchitekturen hinweg, die eine breite Palette von Aufgaben abdecken, darunter maschinelle Übersetzung, Sprachmodellierung, Textgenerierung, Bildklassifizierung, -generierung und -segmentierung. Wir analysieren drei verschiedene FP8-Darstellungen (E5M2, E4M3 und E3M4), um die Auswirkungen unterschiedlicher Kompromisse zwischen dynamischem Bereich und Präzision auf die Modellgenauigkeit zu untersuchen. Basierend auf unserer umfangreichen Studie haben wir einen Quantisierungs-Workflow entwickelt, der sich über verschiedene Netzwerkarchitekturen hinweg verallgemeinern lässt. Unsere empirischen Ergebnisse zeigen, dass FP8-Formate INT8 in mehreren Aspekten übertreffen, einschließlich der Arbeitslastabdeckung (92,64 % gegenüber 65,87 %), der Modellgenauigkeit und der Eignung für ein breiteres Spektrum von Operationen. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass E4M3 besser für NLP-Modelle geeignet ist, während E3M4 bei Computer-Vision-Aufgaben geringfügig besser abschneidet als E4M3. Der Code ist öffentlich auf Intel Neural Compressor verfügbar: https://github.com/intel/neural-compressor.

Aufmerksamkeit erfüllt: Eine Constraint-Satisfaction-Perspektive auf faktische Fehler von Sprachmodellen
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Sep 26, 2023

Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi

Wir untersuchen das interne Verhalten von Transformer-basierten Large Language Models (LLMs), wenn sie faktisch inkorrekte Texte generieren. Wir schlagen vor, faktische Abfragen als Constraint Satisfaction Problems zu modellieren und nutzen diesen Rahmen, um zu untersuchen, wie das Modell intern mit faktischen Einschränkungen interagiert. Insbesondere entdecken wir eine starke positive Beziehung zwischen der Aufmerksamkeit des Modells auf Constraint-Tokens und der faktischen Genauigkeit seiner Antworten. In unserem kuratierten Satz von 11 Datensätzen mit über 40.000 Prompts untersuchen wir die Aufgabe der Vorhersage faktischer Fehler mit der Llama-2-Familie über alle Skalen hinweg (7B, 13B, 70B). Wir schlagen SAT Probe vor, eine Methode zur Untersuchung von Self-Attention-Mustern, die die Erfüllung von Einschränkungen und faktische Fehler vorhersagen und eine frühzeitige Fehlererkennung ermöglichen kann. Der Ansatz und die Ergebnisse zeigen, wie das mechanistische Verständnis von Faktizität in LLMs die Zuverlässigkeit verbessern kann.

DeepSpeed Ulysses: Systemoptimierungen zur Ermöglichung des Trainings von Transformer-Modellen mit extrem langen Sequenzen
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Sep 25, 2023

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He

201

Tägliche Papers

QA-LoRA: Quantisierungsbewusste Low-Rank-Adaption von großen Sprachmodellen
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

LAVIE: Hochwertige Videogenerierung mit kaskadierten latenten Diffusionsmodellen
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

DeepSpeed Ulysses: Systemoptimierungen zur Ermöglichung des Trainings von Transformer-Modellen mit extrem langen Sequenzen
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Effiziente Nachträgliche Quantisierung mit FP8-Formaten
Efficient Post-training Quantization with FP8 Formats

Aufmerksamkeit erfüllt: Eine Constraint-Satisfaction-Perspektive auf faktische Fehler von Sprachmodellen
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Support

Support

Tägliche Papers

QA-LoRA: Quantisierungsbewusste Low-Rank-Adaption von großen Sprachmodellen
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

LAVIE: Hochwertige Videogenerierung mit kaskadierten latenten Diffusionsmodellen
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

DeepSpeed Ulysses: Systemoptimierungen zur Ermöglichung des Trainings von Transformer-Modellen mit extrem langen Sequenzen
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Effiziente Nachträgliche Quantisierung mit FP8-Formaten
Efficient Post-training Quantization with FP8 Formats

Aufmerksamkeit erfüllt: Eine Constraint-Satisfaction-Perspektive auf faktische Fehler von Sprachmodellen
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models