희소 연결 기반 모델의 스케일링 법칙
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
저자: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
초록
우리는 대규모 데이터셋(즉, "파운데이션 모델")으로 학습된 트랜스포머의 스케일링 동작에 대한 파라미터 희소성의 영향을 시각 및 언어 도메인 모두에서 탐구한다. 이 설정에서, 우리는 가중치 희소성, 비제로 파라미터 수, 그리고 학습 데이터 양 사이의 관계를 설명하는 첫 번째 스케일링 법칙을 식별하고, 이를 ViT/JFT-4B 및 T5/C4 모델과 데이터 스케일 전반에 걸쳐 실증적으로 검증한다. 이러한 결과를 통해 주어진 효과적 모델 크기와 학습 예산에 대해 최고의 성능을 제공하는 "최적 희소성"을 특성화할 수 있다. 고정된 비제로 파라미터 수에 대해, 최적 희소성은 학습에 사용된 데이터 양이 증가함에 따라 증가함을 확인한다. 또한, 우리의 연구를 하드웨어 친화적인 n:m 패턴과 같은 다양한 희소성 구조와 사전 학습된 밀집 모델에서 시작하는 전략과 같은 다양한 전략으로 확장한다. 우리의 발견은 다양한 파라미터 및 계산 설정 전반에 걸친 가중치 희소성의 힘과 한계를 밝히며, 계산 효율성 개선을 위해 희소성을 활용하는 데 대한 이론적 이해와 실용적 함의를 제공한다.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.