MaskLLM: 大規模言語モデルのための学習可能な半構造化スパース性MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
大規模言語モデル(LLM)は、通常、膨大なパラメータ数によって特徴付けられ、それにより重要な冗長性が生じます。本研究では、推論時の計算オーバーヘッドを削減することを目的とした、LLMに半構造化(または「N:M」)スパースネスを確立する学習可能なプルーニング手法であるMaskLLMを紹介します。新しい重要性基準を開発する代わりに、MaskLLMはN:MパターンをGumbel Softmaxサンプリングを通じて学習可能な分布として明示的にモデル化します。このアプローチは大規模データセットでのエンドツーエンドのトレーニングを容易にし、次の2つの注目すべき利点を提供します:1)高品質のマスク - 当社の手法は効果的に大規模データセットにスケーリングし、正確なマスクを学習します;2)移転性 - マスク分布の確率モデリングにより、スパースネスの転移学習がドメインやタスク間で可能になります。私たちは、843Mから15Bのパラメータを持つLLMa-2、Nemotron-4、およびGPT-3を含むさまざまなLLMで2:4スパースネスを使用してMaskLLMを評価し、実験結果は最先端の手法に比べて実質的な改善が示されました。たとえば、主要な手法はWikitextで10以上のPerplexity(PPL)を達成しますが、密なモデルの5.12 PPLに対してMaskLLMは凍結された重みでマスクを学習するだけで著しく低い6.72 PPLを達成します。さらに、MaskLLMの学習可能性により、ダウンストリームタスクやドメインに2:4スパースネスを損失なく適用するためのカスタマイズされたマスクが可能になります。コードはhttps://github.com/NVlabs/MaskLLMで入手可能です。