Прогрессивный градиентный поток для устойчивого обучения N:M разреженности в трансформерах
Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers
February 7, 2024
Авторы: Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna
cs.AI
Аннотация
Структурированная разреженность N:M привлекает значительный интерес благодаря относительно небольшой накладной нагрузке и повышению эффективности. Кроме того, эта форма разреженности обладает существенным потенциалом для сокращения объема используемой памяти благодаря своей умеренной накладной нагрузке на представление. Были предприняты попытки разработать методики обучения для структурированной разреженности N:M, которые в основном сосредоточены на областях с низкой разреженностью (около 50%). Тем не менее, производительность моделей, обученных с использованием этих подходов, имеет тенденцию к снижению при работе с областями высокой разреженности (>80%). В данной работе мы исследуем эффективность существующих методик обучения с разреженностью в областях высокой разреженности и утверждаем, что эти методы не способны поддерживать качество модели на уровне, сопоставимом с областями низкой разреженности. Мы демонстрируем, что значительным фактором, способствующим этому различию, является наличие повышенного уровня индуцированного шума в величинах градиентов. Для смягчения этого нежелательного эффекта мы применяем механизмы затухания, чтобы постепенно ограничивать поток градиентов к обрезанным элементам. Наш подход улучшает качество модели до 2% и 5% в моделях для обработки изображений и текста в режиме высокой разреженности соответственно. Мы также оцениваем компромисс между точностью модели и вычислительными затратами на обучение в терминах FLOPs. При одинаковых вычислительных затратах на обучение наш метод демонстрирует лучшую производительность по сравнению с традиционными методиками обучения с разреженностью, показывая улучшение точности до 2%. Исходный код доступен по адресу https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
English
N:M Structured sparsity has garnered significant interest as a result of
relatively modest overhead and improved efficiency. Additionally, this form of
sparsity holds considerable appeal for reducing the memory footprint owing to
their modest representation overhead. There have been efforts to develop
training recipes for N:M structured sparsity, they primarily focus on
low-sparsity regions (sim50\%). Nonetheless, performance of models trained
using these approaches tends to decline when confronted with high-sparsity
regions (>80\%). In this work, we study the effectiveness of existing sparse
training recipes at high-sparsity regions and argue that these methods
fail to sustain the model quality on par with low-sparsity regions. We
demonstrate that the significant factor contributing to this disparity is the
presence of elevated levels of induced noise in the gradient magnitudes. To
mitigate this undesirable effect, we employ decay mechanisms to progressively
restrict the flow of gradients towards pruned elements. Our approach improves
the model quality by up to 2% and 5% in vision and language models at
high sparsity regime, respectively. We also evaluate the trade-off between
model accuracy and training compute cost in terms of FLOPs. At iso-training
FLOPs, our method yields better performance compared to conventional sparse
training recipes, exhibiting an accuracy improvement of up to 2%. The source
code is available at
https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.