세분화된 전문가 혼합 모델을 위한 스케일링 법칙
Scaling Laws for Fine-Grained Mixture of Experts
February 12, 2024
저자: Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur
cs.AI
초록
전문가 혼합(Mixture of Experts, MoE) 모델은 대규모 언어 모델의 계산 비용을 줄이기 위한 주요 해결책으로 부상했다. 본 연구에서는 다양한 변수를 확장하여 이들의 확장 특성을 분석한다. 특히, 전문가의 크기를 정밀하게 제어할 수 있는 새로운 하이퍼파라미터인 세분성(granularity)을 도입한다. 이를 바탕으로, 학습 토큰 수, 모델 크기, 세분성을 고려한 세분화된 MoE의 확장 법칙을 정립한다. 이러한 법칙을 활용하여 주어진 계산 예산에 대한 최적의 학습 구성을 도출한다. 연구 결과는 MoE 모델이 밀집 트랜스포머(dense Transformer)를 지속적으로 능가할 뿐만 아니라, 모델 크기와 학습 예산을 확장함에 따라 밀집 모델과 MoE 모델 간의 효율성 격차가 더욱 커짐을 보여준다. 또한, MoE에서 전문가의 크기를 피드포워드 계층과 동일하게 설정하는 일반적인 관행이 거의 모든 계산 예산에서 최적이 아님을 입증한다.
English
Mixture of Experts (MoE) models have emerged as a primary solution for
reducing the computational cost of Large Language Models. In this work, we
analyze their scaling properties, incorporating an expanded range of variables.
Specifically, we introduce a new hyperparameter, granularity, whose adjustment
enables precise control over the size of the experts. Building on this, we
establish scaling laws for fine-grained MoE, taking into account the number of
training tokens, model size, and granularity. Leveraging these laws, we derive
the optimal training configuration for a given computational budget. Our
findings not only show that MoE models consistently outperform dense
Transformers but also highlight that the efficiency gap between dense and MoE
models widens as we scale up the model size and training budget. Furthermore,
we demonstrate that the common practice of setting the size of experts in MoE
to mirror the feed-forward layer is not optimal at almost any computational
budget.