Fluxo Gradiente Progressivo para Treinamento Robusto de Esparsidade N:M em Transformers

Resumo

A esparsidade estruturada N:M tem atraído interesse significativo devido ao seu custo computacional relativamente modesto e à melhoria de eficiência. Além disso, essa forma de esparsidade é bastante atraente para reduzir a pegada de memória, graças à sua representação de baixo custo. Houve esforços para desenvolver métodos de treinamento para esparsidade estruturada N:M, que se concentram principalmente em regiões de baixa esparsidade (∼50%). No entanto, o desempenho dos modelos treinados com essas abordagens tende a diminuir quando confrontados com regiões de alta esparsidade (>80%). Neste trabalho, estudamos a eficácia das técnicas existentes de treinamento esparso em regiões de alta esparsidade e argumentamos que esses métodos falham em manter a qualidade do modelo em níveis comparáveis às regiões de baixa esparsidade. Demonstramos que o fator significativo que contribui para essa disparidade é a presença de níveis elevados de ruído induzido nas magnitudes dos gradientes. Para mitigar esse efeito indesejável, empregamos mecanismos de decaimento para restringir progressivamente o fluxo de gradientes em direção aos elementos podados. Nossa abordagem melhora a qualidade do modelo em até 2% e 5% em modelos de visão e linguagem, respectivamente, no regime de alta esparsidade. Também avaliamos a relação entre a precisão do modelo e o custo computacional de treinamento em termos de FLOPs. Com o mesmo número de FLOPs de treinamento, nosso método apresenta um desempenho superior em comparação com as técnicas convencionais de treinamento esparso, exibindo uma melhoria de precisão de até 2%. O código-fonte está disponível em https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.

English

N:M Structured sparsity has garnered significant interest as a result of relatively modest overhead and improved efficiency. Additionally, this form of sparsity holds considerable appeal for reducing the memory footprint owing to their modest representation overhead. There have been efforts to develop training recipes for N:M structured sparsity, they primarily focus on low-sparsity regions (sim50\%). Nonetheless, performance of models trained using these approaches tends to decline when confronted with high-sparsity regions (>80\%). In this work, we study the effectiveness of existing sparse training recipes at high-sparsity regions and argue that these methods fail to sustain the model quality on par with low-sparsity regions. We demonstrate that the significant factor contributing to this disparity is the presence of elevated levels of induced noise in the gradient magnitudes. To mitigate this undesirable effect, we employ decay mechanisms to progressively restrict the flow of gradients towards pruned elements. Our approach improves the model quality by up to 2% and 5% in vision and language models at high sparsity regime, respectively. We also evaluate the trade-off between model accuracy and training compute cost in terms of FLOPs. At iso-training FLOPs, our method yields better performance compared to conventional sparse training recipes, exhibiting an accuracy improvement of up to 2%. The source code is available at https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.

Fluxo Gradiente Progressivo para Treinamento Robusto de Esparsidade N:M em Transformers

Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers

Resumo

Support