Hoe flexibel zijn neurale netwerken in de praktijk?

Samenvatting

Er wordt algemeen aangenomen dat een neuraal netwerk een trainingsset kan aanpassen die minstens evenveel voorbeelden bevat als het parameters heeft, wat de noties van overgeparameteriseerde en ondergeparameteriseerde modellen ondersteunt. In de praktijk vinden we echter alleen oplossingen die toegankelijk zijn via ons trainingsproces, inclusief de optimizer en regularizers, wat de flexibiliteit beperkt. Bovendien bepaalt de exacte parameterisatie van de functieklasse, ingebouwd in een architectuur, het verliesoppervlak en beïnvloedt het de minima die we vinden. In dit werk onderzoeken we het vermogen van neurale netwerken om in de praktijk gegevens aan te passen. Onze bevindingen geven aan dat: (1) standaard optimizers minima vinden waarin het model alleen trainingsets kan aanpassen met aanzienlijk minder voorbeelden dan het parameters heeft; (2) convolutionele netwerken parameter-efficiënter zijn dan MLP's en ViT's, zelfs op willekeurig gelabelde gegevens; (3) hoewel stochastische training wordt beschouwd als een regulariserend effect, vindt SGD eigenlijk minima die meer trainingsgegevens aanpassen dan volledige batch gradient descent; (4) het verschil in capaciteit om correct en incorrect gelabelde voorbeelden aan te passen, voorspellend kan zijn voor generalisatie; (5) ReLU-activeringsfuncties resulteren in het vinden van minima die meer gegevens aanpassen, ondanks dat ze zijn ontworpen om verdwijnende en exploderende gradients in diepe architecturen te voorkomen.

English

It is widely believed that a neural network can fit a training set containing at least as many samples as it has parameters, underpinning notions of overparameterized and underparameterized models. In practice, however, we only find solutions accessible via our training procedure, including the optimizer and regularizers, limiting flexibility. Moreover, the exact parameterization of the function class, built into an architecture, shapes its loss surface and impacts the minima we find. In this work, we examine the ability of neural networks to fit data in practice. Our findings indicate that: (1) standard optimizers find minima where the model can only fit training sets with significantly fewer samples than it has parameters; (2) convolutional networks are more parameter-efficient than MLPs and ViTs, even on randomly labeled data; (3) while stochastic training is thought to have a regularizing effect, SGD actually finds minima that fit more training data than full-batch gradient descent; (4) the difference in capacity to fit correctly labeled and incorrectly labeled samples can be predictive of generalization; (5) ReLU activation functions result in finding minima that fit more data despite being designed to avoid vanishing and exploding gradients in deep architectures.

Hoe flexibel zijn neurale netwerken in de praktijk?

Just How Flexible are Neural Networks in Practice?

Samenvatting

Support