ニューラルネットワークの実践的な柔軟性はどの程度か?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
著者: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
要旨
ニューラルネットワークは、少なくともパラメータ数と同数のサンプルを含む訓練セットに適合できると広く信じられており、過剰パラメータ化モデルと過少パラメータ化モデルの概念を支えています。しかし実際には、オプティマイザや正則化器を含む訓練手続きを通じてアクセス可能な解しか見つからず、柔軟性が制限されます。さらに、アーキテクチャに組み込まれた関数クラスの正確なパラメータ化は、その損失曲面を形成し、見つかる極小値に影響を与えます。本研究では、ニューラルネットワークが実際にデータに適合する能力を検証します。我々の調査結果は以下の通りです:(1)標準的なオプティマイザは、パラメータ数よりも大幅に少ないサンプル数の訓練セットにしか適合できない極小値を見つける、(2)畳み込みネットワークは、ランダムにラベル付けされたデータにおいても、MLPやViTよりもパラメータ効率が高い、(3)確率的訓練は正則化効果があると考えられているが、SGDは実際にはフルバッチ勾配降下法よりも多くの訓練データに適合する極小値を見つける、(4)正しくラベル付けされたサンプルと誤ってラベル付けされたサンプルに適合する能力の差は、汎化性能を予測する指標となり得る、(5)ReLU活性化関数は、深層アーキテクチャにおける勾配消失や勾配爆発を防ぐために設計されているにもかかわらず、より多くのデータに適合する極小値を見つける結果をもたらす。
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.Summary
AI-Generated Summary