Progressieve Gradientstroom voor Robuuste N:M Sparsity Training in Transformers
Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers
February 7, 2024
Auteurs: Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna
cs.AI
Samenvatting
N:M gestructureerde sparsity heeft aanzienlijke belangstelling gewekt vanwege de relatief bescheiden overhead en verbeterde efficiëntie. Bovendien is deze vorm van sparsity zeer aantrekkelijk voor het verminderen van het geheugenverbruik vanwege de beperkte representatie-overhead. Er zijn inspanningen geleverd om trainingsmethoden te ontwikkelen voor N:M gestructureerde sparsity, waarbij de focus voornamelijk ligt op regio's met lage sparsity (circa 50%). Desalniettemin neemt de prestaties van modellen die met deze methoden zijn getraind, doorgaans af wanneer ze worden geconfronteerd met regio's met hoge sparsity (>80%). In dit werk onderzoeken we de effectiviteit van bestaande sparse trainingsmethoden in regio's met hoge sparsity en stellen we dat deze methoden er niet in slagen om de modelkwaliteit op hetzelfde niveau te houden als in regio's met lage sparsity. We tonen aan dat de belangrijkste factor die bijdraagt aan dit verschil de aanwezigheid is van verhoogde niveaus van geïnduceerde ruis in de gradientmagnitudes. Om dit ongewenste effect te verminderen, passen we vervalmechanismen toe om de stroom van gradients naar gesnoeide elementen geleidelijk te beperken. Onze aanpak verbetert de modelkwaliteit met respectievelijk tot 2% en 5% in visuele en taalmodelmodellen in het hoge sparsity-regime. We evalueren ook de afweging tussen modelnauwkeurigheid en trainingscomputekosten in termen van FLOPs. Bij gelijkblijvende trainings-FLOPs levert onze methode betere prestaties vergeleken met conventionele sparse trainingsmethoden, met een nauwkeurigheidsverbetering van tot 2%. De broncode is beschikbaar op https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
English
N:M Structured sparsity has garnered significant interest as a result of
relatively modest overhead and improved efficiency. Additionally, this form of
sparsity holds considerable appeal for reducing the memory footprint owing to
their modest representation overhead. There have been efforts to develop
training recipes for N:M structured sparsity, they primarily focus on
low-sparsity regions (sim50\%). Nonetheless, performance of models trained
using these approaches tends to decline when confronted with high-sparsity
regions (>80\%). In this work, we study the effectiveness of existing sparse
training recipes at high-sparsity regions and argue that these methods
fail to sustain the model quality on par with low-sparsity regions. We
demonstrate that the significant factor contributing to this disparity is the
presence of elevated levels of induced noise in the gradient magnitudes. To
mitigate this undesirable effect, we employ decay mechanisms to progressively
restrict the flow of gradients towards pruned elements. Our approach improves
the model quality by up to 2% and 5% in vision and language models at
high sparsity regime, respectively. We also evaluate the trade-off between
model accuracy and training compute cost in terms of FLOPs. At iso-training
FLOPs, our method yields better performance compared to conventional sparse
training recipes, exhibiting an accuracy improvement of up to 2%. The source
code is available at
https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.