疎結合基盤モデルのスケーリング則
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
著者: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
要旨
大規模データセット(すなわち「基盤モデル」)でトレーニングされたTransformerのスケーリング挙動に対するパラメータのスパース性の影響を、視覚と言語の両ドメインで探求します。この設定において、重みのスパース性、非ゼロパラメータの数、およびトレーニングデータ量の関係を記述する最初のスケーリング則を特定し、ViT/JFT-4BおよびT5/C4においてモデルとデータのスケールにわたって実証的に検証します。これらの結果により、特定の有効モデルサイズとトレーニング予算に対して最良の性能を発揮する「最適なスパース性」を特徴付けることが可能となります。非ゼロパラメータの数を固定した場合、最適なスパース性はトレーニングに使用されるデータ量とともに増加することがわかります。また、異なるスパース性構造(ハードウェアに優しいn:mパターンなど)や戦略(事前にトレーニングされた密なモデルから始めるなど)についても研究を拡張します。我々の知見は、様々なパラメータと計算設定における重みのスパース性の力と限界を明らかにし、計算効率の向上に向けてスパース性を活用するための理論的理解と実用的な示唆を提供します。
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.