Параметры против FLOPs: законы масштабирования оптимальной разреженности для языковых моделей на основе смеси экспертов
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
January 21, 2025
Авторы: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI
Аннотация
Масштабирование мощности языковых моделей последовательно доказало свою надежность как метод улучшения производительности и разблокирования новых возможностей. Мощность можно определить преимущественно двумя измерениями: количеством параметров модели и вычислениями на пример. Хотя масштабирование обычно включает увеличение обоих параметров, точное взаимодействие между этими факторами и их совместный вклад в общую мощность остается не до конца понятым. Мы исследуем эту связь в контексте разреженной модели смеси экспертов (MoE), которая позволяет масштабировать количество параметров без пропорционального увеличения FLOPs на пример. Мы исследуем, как изменение уровня разреженности, то есть доли неактивных параметров, влияет на производительность модели во время предварительного обучения и последующей оценки с небольшим количеством данных. Мы обнаруживаем, что при различных ограничениях (например, размер параметра и общее вычислительное время обучения) существует оптимальный уровень разреженности, который улучшает как эффективность обучения, так и производительность модели. Эти результаты обеспечивают лучшее понимание влияния разреженности на законы масштабирования для MoE и дополняют существующие работы в этой области, предлагая идеи для разработки более эффективных архитектур.
English
Scaling the capacity of language models has consistently proven to be a
reliable approach for improving performance and unlocking new capabilities.
Capacity can be primarily defined by two dimensions: the number of model
parameters and the compute per example. While scaling typically involves
increasing both, the precise interplay between these factors and their combined
contribution to overall capacity remains not fully understood. We explore this
relationship in the context of sparse Mixture-of-Experts (MoEs), which allow
scaling the number of parameters without proportionally increasing the FLOPs
per example. We investigate how varying the sparsity level, i.e., the fraction
of inactive parameters, impacts model's performance during pretraining and
downstream few-shot evaluation. We find that under different constraints (e.g.,
parameter size and total training compute), there is an optimal level of
sparsity that improves both training efficiency and model performance. These
results provide a better understanding of the impact of sparsity in scaling
laws for MoEs and complement existing works in this area, offering insights for
designing more efficient architectures.Summary
AI-Generated Summary