Progressiver Gradientenfluss für robustes N:M-Sparsity-Training in Transformern
Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers
February 7, 2024
Autoren: Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna
cs.AI
Zusammenfassung
N:M-Strukturierte Sparsity hat aufgrund des relativ geringen Overheads und der verbesserten Effizienz erhebliches Interesse geweckt. Darüber hinaus bietet diese Form der Sparsity erhebliche Vorteile bei der Reduzierung des Speicherbedarfs, da sie einen geringen Darstellungs-Overhead aufweist. Es gab Bemühungen, Trainingsmethoden für N:M-strukturierte Sparsity zu entwickeln, die sich jedoch hauptsächlich auf Regionen mit geringer Sparsity (ca. 50 %) konzentrieren. Dennoch neigt die Leistung von Modellen, die mit diesen Ansätzen trainiert wurden, in Regionen mit hoher Sparsity (>80 %) abzufallen. In dieser Arbeit untersuchen wir die Wirksamkeit bestehender Sparse-Training-Methoden in Regionen mit hoher Sparsity und argumentieren, dass diese Methoden die Modellqualität nicht auf dem Niveau von Regionen mit geringer Sparsity halten können. Wir zeigen, dass der wesentliche Faktor, der zu dieser Diskrepanz beiträgt, das Vorhandensein erhöhter Rauschpegel in den Gradientenbeträgen ist. Um diesen unerwünschten Effekt zu mildern, setzen wir Abklingmechanismen ein, um den Fluss der Gradienten zu den beschnittenen Elementen schrittweise einzuschränken. Unser Ansatz verbessert die Modellqualität in Regionen mit hoher Sparsity um bis zu 2 % bzw. 5 % bei visuellen und Sprachmodellen. Wir bewerten auch den Kompromiss zwischen Modellgenauigkeit und Trainingsrechenkosten in Bezug auf FLOPs. Bei gleichen Trainings-FLOPs erzielt unsere Methode eine bessere Leistung im Vergleich zu herkömmlichen Sparse-Training-Methoden und zeigt eine Genauigkeitsverbesserung von bis zu 2 %. Der Quellcode ist verfügbar unter https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
English
N:M Structured sparsity has garnered significant interest as a result of
relatively modest overhead and improved efficiency. Additionally, this form of
sparsity holds considerable appeal for reducing the memory footprint owing to
their modest representation overhead. There have been efforts to develop
training recipes for N:M structured sparsity, they primarily focus on
low-sparsity regions (sim50\%). Nonetheless, performance of models trained
using these approaches tends to decline when confronted with high-sparsity
regions (>80\%). In this work, we study the effectiveness of existing sparse
training recipes at high-sparsity regions and argue that these methods
fail to sustain the model quality on par with low-sparsity regions. We
demonstrate that the significant factor contributing to this disparity is the
presence of elevated levels of induced noise in the gradient magnitudes. To
mitigate this undesirable effect, we employ decay mechanisms to progressively
restrict the flow of gradients towards pruned elements. Our approach improves
the model quality by up to 2% and 5% in vision and language models at
high sparsity regime, respectively. We also evaluate the trade-off between
model accuracy and training compute cost in terms of FLOPs. At iso-training
FLOPs, our method yields better performance compared to conventional sparse
training recipes, exhibiting an accuracy improvement of up to 2%. The source
code is available at
https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.