MaskLLM: Обучаемая полуструктурированная разреженность для больших языковых моделейMaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Большие языковые модели (LLM) отличаются своими огромными параметрами, что обычно приводит к значительной избыточности. В данной работе представлена MaskLLM, обучаемый метод обрезки, который устанавливает Полуструктурированную (или "N:M") Разреженность в LLM с целью снижения вычислительной нагрузки во время вывода. Вместо разработки нового критерия важности, MaskLLM явно моделирует образцы N:M как обучаемое распределение с помощью выборки Gumbel Softmax. Этот подход облегчает обучение на масштабных наборах данных и предлагает два примечательных преимущества: 1) Маски высокого качества - наш метод эффективно масштабируется на большие наборы данных и изучает точные маски; 2) Переносимость - вероятностное моделирование распределения масок позволяет переносить обучение разреженности между областями или задачами. Мы оценили MaskLLM, используя разреженность 2:4 на различных LLM, включая LLaMA-2, Nemotron-4 и GPT-3, с размерами параметров от 843 миллионов до 15 миллиардов, и наши эмпирические результаты показывают существенные улучшения по сравнению с современными методами. Например, ведущие подходы достигают перплексии (PPL) 10 или более на Wikitext по сравнению с плотной моделью, у которой PPL 5,12, но MaskLLM достигает значительно более низкой PPL 6,72 только за счет обучения масок с зафиксированными весами. Более того, обучаемая природа MaskLLM позволяет создавать настраиваемые маски для без потерь применения разреженности 2:4 к последующим задачам или областям. Код доступен по адресу https://github.com/NVlabs/MaskLLM.