Fluxo Gradiente Progressivo para Treinamento Robusto de Esparsidade N:M em Transformers
Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers
February 7, 2024
Autores: Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna
cs.AI
Resumo
A esparsidade estruturada N:M tem atraído interesse significativo devido ao seu custo computacional relativamente modesto e à melhoria de eficiência. Além disso, essa forma de esparsidade é bastante atraente para reduzir a pegada de memória, graças à sua representação de baixo custo. Houve esforços para desenvolver métodos de treinamento para esparsidade estruturada N:M, que se concentram principalmente em regiões de baixa esparsidade (∼50%). No entanto, o desempenho dos modelos treinados com essas abordagens tende a diminuir quando confrontados com regiões de alta esparsidade (>80%). Neste trabalho, estudamos a eficácia das técnicas existentes de treinamento esparso em regiões de alta esparsidade e argumentamos que esses métodos falham em manter a qualidade do modelo em níveis comparáveis às regiões de baixa esparsidade. Demonstramos que o fator significativo que contribui para essa disparidade é a presença de níveis elevados de ruído induzido nas magnitudes dos gradientes. Para mitigar esse efeito indesejável, empregamos mecanismos de decaimento para restringir progressivamente o fluxo de gradientes em direção aos elementos podados. Nossa abordagem melhora a qualidade do modelo em até 2% e 5% em modelos de visão e linguagem, respectivamente, no regime de alta esparsidade. Também avaliamos a relação entre a precisão do modelo e o custo computacional de treinamento em termos de FLOPs. Com o mesmo número de FLOPs de treinamento, nosso método apresenta um desempenho superior em comparação com as técnicas convencionais de treinamento esparso, exibindo uma melhoria de precisão de até 2%. O código-fonte está disponível em https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
English
N:M Structured sparsity has garnered significant interest as a result of
relatively modest overhead and improved efficiency. Additionally, this form of
sparsity holds considerable appeal for reducing the memory footprint owing to
their modest representation overhead. There have been efforts to develop
training recipes for N:M structured sparsity, they primarily focus on
low-sparsity regions (sim50\%). Nonetheless, performance of models trained
using these approaches tends to decline when confronted with high-sparsity
regions (>80\%). In this work, we study the effectiveness of existing sparse
training recipes at high-sparsity regions and argue that these methods
fail to sustain the model quality on par with low-sparsity regions. We
demonstrate that the significant factor contributing to this disparity is the
presence of elevated levels of induced noise in the gradient magnitudes. To
mitigate this undesirable effect, we employ decay mechanisms to progressively
restrict the flow of gradients towards pruned elements. Our approach improves
the model quality by up to 2% and 5% in vision and language models at
high sparsity regime, respectively. We also evaluate the trade-off between
model accuracy and training compute cost in terms of FLOPs. At iso-training
FLOPs, our method yields better performance compared to conventional sparse
training recipes, exhibiting an accuracy improvement of up to 2%. The source
code is available at
https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.