실제로 신경망은 얼마나 유연한가?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
저자: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
초록
신경망이 최소한 파라미터 수만큼의 샘플을 포함하는 훈련 세트에 적합할 수 있다는 것은 널리 알려진 사실이며, 이는 과매개변수화(overparameterized) 및 저매개변수화(underparameterized) 모델의 개념을 뒷받침합니다. 그러나 실제로는 최적화기(optimizer)와 정규화기(regularizer)를 포함한 훈련 절차를 통해 접근 가능한 해결책만을 찾게 되므로 유연성이 제한됩니다. 또한, 아키텍처에 내장된 함수 클래스의 정확한 매개변수화는 손실 표면을 형성하고 우리가 찾는 최소값에 영향을 미칩니다. 본 연구에서는 신경망이 실제 데이터에 적합할 수 있는 능력을 조사합니다. 연구 결과는 다음과 같습니다: (1) 표준 최적화기는 모델이 파라미터 수보다 훨씬 적은 샘플을 가진 훈련 세트에만 적합할 수 있는 최소값을 찾습니다; (2) 합성곱 신경망(convolutional networks)은 MLP와 ViT보다 파라미터 효율성이 높으며, 이는 무작위로 레이블된 데이터에서도 마찬가지입니다; (3) 확률적 훈련(stochastic training)이 정규화 효과를 가진다고 여겨지지만, SGD는 실제로 전체 배치 경사 하강법(full-batch gradient descent)보다 더 많은 훈련 데이터에 적합한 최소값을 찾습니다; (4) 올바르게 레이블된 샘플과 잘못 레이블된 샘플에 적합할 수 있는 능력의 차이는 일반화(generalization)를 예측하는 데 유용할 수 있습니다; (5) ReLU 활성화 함수는 깊은 아키텍처에서 기울기 소실(vanishing) 및 폭발(exploding) 문제를 피하기 위해 설계되었음에도 불구하고 더 많은 데이터에 적합한 최소값을 찾는 결과를 가져옵니다.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.Summary
AI-Generated Summary