Quanto sono realmente flessibili le reti neurali nella pratica?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
Autori: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
Abstract
È ampiamente ritenuto che una rete neurale possa adattarsi a un insieme di addestramento contenente almeno tanti campioni quanti sono i suoi parametri, sostenendo le nozioni di modelli sovraparametrizzati e sottoparametrizzati. Tuttavia, nella pratica, troviamo solo soluzioni accessibili tramite la nostra procedura di addestramento, inclusi l'ottimizzatore e i regolarizzatori, limitando la flessibilità. Inoltre, l'esatta parametrizzazione della classe di funzioni, integrata in un'architettura, modella la sua superficie di perdita e influisce sui minimi che troviamo. In questo lavoro, esaminiamo la capacità delle reti neurali di adattarsi ai dati nella pratica. Le nostre scoperte indicano che: (1) gli ottimizzatori standard trovano minimi in cui il modello può adattarsi solo a insiemi di addestramento con un numero significativamente inferiore di campioni rispetto ai parametri; (2) le reti convoluzionali sono più efficienti in termini di parametri rispetto alle MLP e alle ViT, anche su dati etichettati casualmente; (3) sebbene si pensi che l'addestramento stocastico abbia un effetto regolarizzante, l'SGD trova effettivamente minimi che si adattano a più dati di addestramento rispetto alla discesa del gradiente a batch completo; (4) la differenza nella capacità di adattarsi a campioni etichettati correttamente e in modo errato può essere predittiva della generalizzazione; (5) le funzioni di attivazione ReLU portano a trovare minimi che si adattano a più dati nonostante siano progettate per evitare il problema del gradiente che svanisce o esplode nelle architetture profonde.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.