Progressiver Gradientenfluss für robustes N:M-Sparsity-Training in Transformern

papers.abstract

N:M-Strukturierte Sparsity hat aufgrund des relativ geringen Overheads und der verbesserten Effizienz erhebliches Interesse geweckt. Darüber hinaus bietet diese Form der Sparsity erhebliche Vorteile bei der Reduzierung des Speicherbedarfs, da sie einen geringen Darstellungs-Overhead aufweist. Es gab Bemühungen, Trainingsmethoden für N:M-strukturierte Sparsity zu entwickeln, die sich jedoch hauptsächlich auf Regionen mit geringer Sparsity (ca. 50 %) konzentrieren. Dennoch neigt die Leistung von Modellen, die mit diesen Ansätzen trainiert wurden, in Regionen mit hoher Sparsity (>80 %) abzufallen. In dieser Arbeit untersuchen wir die Wirksamkeit bestehender Sparse-Training-Methoden in Regionen mit hoher Sparsity und argumentieren, dass diese Methoden die Modellqualität nicht auf dem Niveau von Regionen mit geringer Sparsity halten können. Wir zeigen, dass der wesentliche Faktor, der zu dieser Diskrepanz beiträgt, das Vorhandensein erhöhter Rauschpegel in den Gradientenbeträgen ist. Um diesen unerwünschten Effekt zu mildern, setzen wir Abklingmechanismen ein, um den Fluss der Gradienten zu den beschnittenen Elementen schrittweise einzuschränken. Unser Ansatz verbessert die Modellqualität in Regionen mit hoher Sparsity um bis zu 2 % bzw. 5 % bei visuellen und Sprachmodellen. Wir bewerten auch den Kompromiss zwischen Modellgenauigkeit und Trainingsrechenkosten in Bezug auf FLOPs. Bei gleichen Trainings-FLOPs erzielt unsere Methode eine bessere Leistung im Vergleich zu herkömmlichen Sparse-Training-Methoden und zeigt eine Genauigkeitsverbesserung von bis zu 2 %. Der Quellcode ist verfügbar unter https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.

English

N:M Structured sparsity has garnered significant interest as a result of relatively modest overhead and improved efficiency. Additionally, this form of sparsity holds considerable appeal for reducing the memory footprint owing to their modest representation overhead. There have been efforts to develop training recipes for N:M structured sparsity, they primarily focus on low-sparsity regions (sim50\%). Nonetheless, performance of models trained using these approaches tends to decline when confronted with high-sparsity regions (>80\%). In this work, we study the effectiveness of existing sparse training recipes at high-sparsity regions and argue that these methods fail to sustain the model quality on par with low-sparsity regions. We demonstrate that the significant factor contributing to this disparity is the presence of elevated levels of induced noise in the gradient magnitudes. To mitigate this undesirable effect, we employ decay mechanisms to progressively restrict the flow of gradients towards pruned elements. Our approach improves the model quality by up to 2% and 5% in vision and language models at high sparsity regime, respectively. We also evaluate the trade-off between model accuracy and training compute cost in terms of FLOPs. At iso-training FLOPs, our method yields better performance compared to conventional sparse training recipes, exhibiting an accuracy improvement of up to 2%. The source code is available at https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.

Progressiver Gradientenfluss für robustes N:M-Sparsity-Training in Transformern

Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers

papers.abstract

Support