Законы масштабирования для редко связанных базовых моделей
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Авторы: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Аннотация
Мы исследуем влияние разреженности параметров на масштабируемость трансформеров, обученных на огромных наборах данных (т.н. "фундаментальных моделях"), в областях как компьютерного зрения, так и обработки естественного языка. В этом контексте мы выявляем первый закон масштабирования, описывающий взаимосвязь между разреженностью весов, количеством ненулевых параметров и объемом обучающих данных, который мы эмпирически подтверждаем на различных масштабах моделей и данных, включая ViT/JFT-4B и T5/C4. Эти результаты позволяют нам охарактеризовать "оптимальную разреженность" — уровень разреженности, обеспечивающий наилучшую производительность при заданном эффективном размере модели и бюджете обучения. Для фиксированного количества ненулевых параметров мы обнаруживаем, что оптимальная разреженность увеличивается с объемом данных, используемых для обучения. Мы также расширяем наше исследование на различные структуры разреженности (например, аппаратно-оптимизированный шаблон n:m) и стратегии (например, начальное обучение с плотной предобученной модели). Наши результаты проливают свет на возможности и ограничения разреженности весов в различных параметрических и вычислительных условиях, предлагая как теоретическое понимание, так и практические рекомендации для повышения вычислительной эффективности за счет использования разреженности.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.