À quel point les réseaux de neurones sont-ils flexibles en pratique ?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
Auteurs: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
Résumé
Il est largement admis qu'un réseau neuronal peut s'adapter à un ensemble d'entraînement contenant au moins autant d'échantillons qu'il a de paramètres, ce qui sous-tend les notions de modèles surparamétrés et sous-paramétrés. Cependant, en pratique, nous ne trouvons que des solutions accessibles via notre procédure d'entraînement, incluant l'optimiseur et les régularisateurs, ce qui limite la flexibilité. De plus, la paramétrisation exacte de la classe de fonctions, intégrée dans une architecture, façonne sa surface de perte et influence les minima que nous trouvons. Dans ce travail, nous examinons la capacité des réseaux neuronaux à s'adapter aux données en pratique. Nos résultats indiquent que : (1) les optimiseurs standards trouvent des minima où le modèle ne peut s'adapter qu'à des ensembles d'entraînement contenant significativement moins d'échantillons qu'il n'a de paramètres ; (2) les réseaux convolutifs sont plus efficaces en termes de paramètres que les MLP et les ViT, même sur des données étiquetées aléatoirement ; (3) bien que l'entraînement stochastique soit considéré comme ayant un effet régularisant, SGD trouve en réalité des minima qui s'adaptent à plus de données d'entraînement que la descente de gradient par lots complets ; (4) la différence de capacité à s'adapter aux échantillons correctement et incorrectement étiquetés peut être prédictive de la généralisation ; (5) les fonctions d'activation ReLU conduisent à trouver des minima qui s'adaptent à plus de données, bien qu'elles soient conçues pour éviter les gradients qui disparaissent ou explosent dans les architectures profondes.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.Summary
AI-Generated Summary