Flujo de Gradiente Progresivo para el Entrenamiento de Esparsidad N:M Robusta en Transformadores

Resumen

La esparsidad estructurada N:M ha generado un interés significativo debido a su sobrecarga relativamente modesta y a la mejora en la eficiencia. Además, esta forma de esparsidad resulta particularmente atractiva para reducir la huella de memoria, gracias a su representación con baja sobrecarga. Se han realizado esfuerzos para desarrollar métodos de entrenamiento para la esparsidad estructurada N:M, centrándose principalmente en regiones de baja esparsidad (∼50%). Sin embargo, el rendimiento de los modelos entrenados con estos enfoques tiende a disminuir cuando se enfrentan a regiones de alta esparsidad (>80%). En este trabajo, estudiamos la efectividad de las técnicas existentes de entrenamiento esparso en regiones de alta esparsidad y argumentamos que estos métodos no logran mantener la calidad del modelo al nivel de las regiones de baja esparsidad. Demostramos que el factor principal que contribuye a esta disparidad es la presencia de niveles elevados de ruido inducido en las magnitudes de los gradientes. Para mitigar este efecto indeseable, empleamos mecanismos de decaimiento para restringir progresivamente el flujo de gradientes hacia los elementos podados. Nuestro enfoque mejora la calidad del modelo hasta en un 2% y un 5% en modelos de visión y lenguaje, respectivamente, en regímenes de alta esparsidad. También evaluamos la relación entre la precisión del modelo y el costo computacional del entrenamiento en términos de FLOPs. Con un número equivalente de FLOPs de entrenamiento, nuestro método ofrece un mejor rendimiento en comparación con las técnicas convencionales de entrenamiento esparso, mostrando una mejora en la precisión de hasta un 2%. El código fuente está disponible en https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.

English

N:M Structured sparsity has garnered significant interest as a result of relatively modest overhead and improved efficiency. Additionally, this form of sparsity holds considerable appeal for reducing the memory footprint owing to their modest representation overhead. There have been efforts to develop training recipes for N:M structured sparsity, they primarily focus on low-sparsity regions (sim50\%). Nonetheless, performance of models trained using these approaches tends to decline when confronted with high-sparsity regions (>80\%). In this work, we study the effectiveness of existing sparse training recipes at high-sparsity regions and argue that these methods fail to sustain the model quality on par with low-sparsity regions. We demonstrate that the significant factor contributing to this disparity is the presence of elevated levels of induced noise in the gradient magnitudes. To mitigate this undesirable effect, we employ decay mechanisms to progressively restrict the flow of gradients towards pruned elements. Our approach improves the model quality by up to 2% and 5% in vision and language models at high sparsity regime, respectively. We also evaluate the trade-off between model accuracy and training compute cost in terms of FLOPs. At iso-training FLOPs, our method yields better performance compared to conventional sparse training recipes, exhibiting an accuracy improvement of up to 2%. The source code is available at https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.

Flujo de Gradiente Progresivo para el Entrenamiento de Esparsidad N:M Robusta en Transformadores

Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers

Resumen

Support