Quão Flexíveis São as Redes Neurais na Prática?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
Autores: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
Resumo
É amplamente aceito que uma rede neural pode ajustar um conjunto de treinamento contendo pelo menos tantas amostras quanto o número de parâmetros que possui, sustentando as noções de modelos superparametrizados e subparametrizados. Na prática, no entanto, encontramos apenas soluções acessíveis por meio de nosso procedimento de treinamento, incluindo o otimizador e regularizadores, o que limita a flexibilidade. Além disso, a parametrização exata da classe de funções, incorporada em uma arquitetura, molda sua superfície de perda e impacta os mínimos que encontramos. Neste trabalho, examinamos a capacidade das redes neurais de ajustar dados na prática. Nossas descobertas indicam que: (1) otimizadores padrão encontram mínimos onde o modelo só consegue ajustar conjuntos de treinamento com significativamente menos amostras do que o número de parâmetros que possui; (2) redes convolucionais são mais eficientes em termos de parâmetros do que MLPs e ViTs, mesmo em dados com rótulos aleatórios; (3) embora o treinamento estocástico seja considerado ter um efeito regularizador, o SGD, na verdade, encontra mínimos que ajustam mais dados de treinamento do que o gradiente descendente em lote completo; (4) a diferença na capacidade de ajustar amostras corretamente e incorretamente rotuladas pode ser preditiva de generalização; (5) funções de ativação ReLU resultam na descoberta de mínimos que ajustam mais dados, apesar de terem sido projetadas para evitar gradientes que desaparecem ou explodem em arquiteturas profundas.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.