¿Qué tan flexibles son realmente las redes neuronales en la práctica?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
Autores: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
Resumen
Es ampliamente aceptado que una red neuronal puede ajustarse a un conjunto de entrenamiento que contenga al menos tantas muestras como parámetros tenga, lo que sustenta las nociones de modelos sobreparametrizados y subparametrizados. Sin embargo, en la práctica, solo encontramos soluciones accesibles a través de nuestro procedimiento de entrenamiento, incluyendo el optimizador y los regularizadores, lo que limita la flexibilidad. Además, la parametrización exacta de la clase de funciones, integrada en una arquitectura, moldea su superficie de pérdida e influye en los mínimos que encontramos. En este trabajo, examinamos la capacidad de las redes neuronales para ajustarse a los datos en la práctica. Nuestros hallazgos indican que: (1) los optimizadores estándar encuentran mínimos donde el modelo solo puede ajustarse a conjuntos de entrenamiento con significativamente menos muestras que parámetros; (2) las redes convolucionales son más eficientes en términos de parámetros que las MLP y las ViT, incluso en datos con etiquetas aleatorias; (3) aunque se piensa que el entrenamiento estocástico tiene un efecto regularizador, el SGD en realidad encuentra mínimos que se ajustan a más datos de entrenamiento que el descenso de gradiente por lotes completos; (4) la diferencia en la capacidad para ajustarse a muestras correctamente etiquetadas e incorrectamente etiquetadas puede ser predictiva de la generalización; (5) las funciones de activación ReLU resultan en la búsqueda de mínimos que se ajustan a más datos, a pesar de estar diseñadas para evitar los problemas de gradientes que desaparecen o explotan en arquitecturas profundas.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.Summary
AI-Generated Summary