Насколько гибкие на практике являются нейронные сети?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
Авторы: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
Аннотация
Широко распространено мнение, что нейронная сеть может подогнаться под обучающий набор, содержащий как минимум столько же образцов, сколько у нее параметров, лежащее в основе понятий переобученных и недообученных моделей. Однако на практике мы обнаруживаем только те решения, к которым можно добраться с помощью нашей процедуры обучения, включая оптимизаторы и регуляризаторы, ограничивая гибкость. Более того, точная параметризация класса функций, встроенная в архитектуру, формирует поверхность потерь и влияет на минимумы, которые мы находим. В данной работе мы исследуем способность нейронных сетей подгоняться под данные на практике. Наши результаты указывают на то, что: (1) стандартные оптимизаторы находят минимумы, в которых модель может подогнаться только под обучающие наборы с значительно меньшим количеством образцов, чем у нее параметров; (2) сверточные сети более эффективны по параметрам, чем многослойные перцептроны и трансформеры, даже на случайно размеченных данных; (3) хотя стохастическое обучение считается имеющим регуляризующий эффект, SGD фактически находит минимумы, которые подходят для большего количества обучающих данных, чем градиентный спуск по полному пакету; (4) разница в способности подгоняться под правильно и неправильно размеченные образцы может быть предиктивной для обобщения; (5) активационные функции ReLU приводят к нахождению минимумов, которые подгоняются под больше данных, несмотря на то, что они разработаны для избежания затухания и взрыва градиентов в глубоких архитектурах.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.Summary
AI-Generated Summary