Flux de gradient progressif pour un entraînement robuste de la parcimonie N:M dans les Transformers
Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers
February 7, 2024
Auteurs: Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna
cs.AI
Résumé
La parcimonie structurée N:M a suscité un intérêt significatif en raison de son surcoût relativement modeste et de son efficacité accrue. De plus, cette forme de parcimonie présente un attrait considérable pour réduire l'empreinte mémoire grâce à son faible surcoût de représentation. Des efforts ont été déployés pour développer des méthodes d'entraînement pour la parcimonie structurée N:M, se concentrant principalement sur les régions de faible parcimonie (environ 50 %). Cependant, les performances des modèles entraînés avec ces approches ont tendance à décliner lorsqu'ils sont confrontés à des régions de haute parcimonie (>80 %). Dans ce travail, nous étudions l'efficacité des méthodes d'entraînement parcimonieux existantes dans les régions de haute parcimonie et soutenons que ces méthodes ne parviennent pas à maintenir la qualité des modèles au même niveau que dans les régions de faible parcimonie. Nous démontrons que le facteur principal contribuant à cette disparité est la présence de niveaux élevés de bruit induit dans les magnitudes des gradients. Pour atténuer cet effet indésirable, nous utilisons des mécanismes de décroissance pour restreindre progressivement le flux des gradients vers les éléments élagués. Notre approche améliore la qualité des modèles jusqu'à 2 % et 5 % respectivement pour les modèles de vision et de langage dans le régime de haute parcimonie. Nous évaluons également le compromis entre la précision du modèle et le coût de calcul d'entraînement en termes de FLOPs. À nombre de FLOPs d'entraînement équivalent, notre méthode offre de meilleures performances par rapport aux méthodes d'entraînement parcimonieux conventionnelles, avec une amélioration de la précision allant jusqu'à 2 %. Le code source est disponible à l'adresse suivante : https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
English
N:M Structured sparsity has garnered significant interest as a result of
relatively modest overhead and improved efficiency. Additionally, this form of
sparsity holds considerable appeal for reducing the memory footprint owing to
their modest representation overhead. There have been efforts to develop
training recipes for N:M structured sparsity, they primarily focus on
low-sparsity regions (sim50\%). Nonetheless, performance of models trained
using these approaches tends to decline when confronted with high-sparsity
regions (>80\%). In this work, we study the effectiveness of existing sparse
training recipes at high-sparsity regions and argue that these methods
fail to sustain the model quality on par with low-sparsity regions. We
demonstrate that the significant factor contributing to this disparity is the
presence of elevated levels of induced noise in the gradient magnitudes. To
mitigate this undesirable effect, we employ decay mechanisms to progressively
restrict the flow of gradients towards pruned elements. Our approach improves
the model quality by up to 2% and 5% in vision and language models at
high sparsity regime, respectively. We also evaluate the trade-off between
model accuracy and training compute cost in terms of FLOPs. At iso-training
FLOPs, our method yields better performance compared to conventional sparse
training recipes, exhibiting an accuracy improvement of up to 2%. The source
code is available at
https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.