¿Qué tan flexibles son realmente las redes neuronales en la práctica?

Resumen

Es ampliamente aceptado que una red neuronal puede ajustarse a un conjunto de entrenamiento que contenga al menos tantas muestras como parámetros tenga, lo que sustenta las nociones de modelos sobreparametrizados y subparametrizados. Sin embargo, en la práctica, solo encontramos soluciones accesibles a través de nuestro procedimiento de entrenamiento, incluyendo el optimizador y los regularizadores, lo que limita la flexibilidad. Además, la parametrización exacta de la clase de funciones, integrada en una arquitectura, moldea su superficie de pérdida e influye en los mínimos que encontramos. En este trabajo, examinamos la capacidad de las redes neuronales para ajustarse a los datos en la práctica. Nuestros hallazgos indican que: (1) los optimizadores estándar encuentran mínimos donde el modelo solo puede ajustarse a conjuntos de entrenamiento con significativamente menos muestras que parámetros; (2) las redes convolucionales son más eficientes en términos de parámetros que las MLP y las ViT, incluso en datos con etiquetas aleatorias; (3) aunque se piensa que el entrenamiento estocástico tiene un efecto regularizador, el SGD en realidad encuentra mínimos que se ajustan a más datos de entrenamiento que el descenso de gradiente por lotes completos; (4) la diferencia en la capacidad para ajustarse a muestras correctamente etiquetadas e incorrectamente etiquetadas puede ser predictiva de la generalización; (5) las funciones de activación ReLU resultan en la búsqueda de mínimos que se ajustan a más datos, a pesar de estar diseñadas para evitar los problemas de gradientes que desaparecen o explotan en arquitecturas profundas.

English

It is widely believed that a neural network can fit a training set containing at least as many samples as it has parameters, underpinning notions of overparameterized and underparameterized models. In practice, however, we only find solutions accessible via our training procedure, including the optimizer and regularizers, limiting flexibility. Moreover, the exact parameterization of the function class, built into an architecture, shapes its loss surface and impacts the minima we find. In this work, we examine the ability of neural networks to fit data in practice. Our findings indicate that: (1) standard optimizers find minima where the model can only fit training sets with significantly fewer samples than it has parameters; (2) convolutional networks are more parameter-efficient than MLPs and ViTs, even on randomly labeled data; (3) while stochastic training is thought to have a regularizing effect, SGD actually finds minima that fit more training data than full-batch gradient descent; (4) the difference in capacity to fit correctly labeled and incorrectly labeled samples can be predictive of generalization; (5) ReLU activation functions result in finding minima that fit more data despite being designed to avoid vanishing and exploding gradients in deep architectures.

¿Qué tan flexibles son realmente las redes neuronales en la práctica?

Just How Flexible are Neural Networks in Practice?

Resumen

Support