Wie flexibel sind neuronale Netzwerke in der Praxis wirklich?
Just How Flexible are Neural Networks in Practice?
June 17, 2024
Autoren: Ravid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson
cs.AI
Zusammenfassung
Es wird allgemein angenommen, dass ein neuronales Netzwerk einen Trainingsdatensatz passend machen kann, der mindestens so viele Beispiele enthält wie es Parameter gibt, was die Konzepte von überparametrisierten und unterparametrisierten Modellen untermauert. In der Praxis finden wir jedoch nur Lösungen, die über unser Schulungsverfahren zugänglich sind, einschließlich des Optimierers und Regularisierer, was die Flexibilität einschränkt. Darüber hinaus formt die genaue Parametrisierung der Funktionsklasse, die in eine Architektur eingebettet ist, deren Verlustfläche und beeinflusst die Minima, die wir finden. In dieser Arbeit untersuchen wir die Fähigkeit von neuronalen Netzwerken, Daten in der Praxis anzupassen. Unsere Ergebnisse deuten darauf hin, dass: (1) Standardoptimierer Minima finden, in denen das Modell nur Trainingsdatensätze mit signifikant weniger Beispielen als Parametern passen kann; (2) Faltungsnetzwerke sind parameter-effizienter als MLPs und ViTs, selbst bei zufällig gelabelten Daten; (3) obwohl angenommen wird, dass stochastisches Training eine Regularisierungswirkung hat, findet SGD tatsächlich Minima, die mehr Trainingsdaten passen als das Gradientenabstiegsverfahren mit vollem Batch; (4) der Unterschied in der Fähigkeit, richtig und falsch gelabelte Beispiele anzupassen, kann auf die Verallgemeinerung schließen lassen; (5) ReLU-Aktivierungsfunktionen führen dazu, dass Minima gefunden werden, die mehr Daten passen, obwohl sie darauf ausgelegt sind, das Verschwinden und Explodieren von Gradienten in tiefen Architekturen zu vermeiden.
English
It is widely believed that a neural network can fit a training set containing
at least as many samples as it has parameters, underpinning notions of
overparameterized and underparameterized models. In practice, however, we only
find solutions accessible via our training procedure, including the optimizer
and regularizers, limiting flexibility. Moreover, the exact parameterization of
the function class, built into an architecture, shapes its loss surface and
impacts the minima we find. In this work, we examine the ability of neural
networks to fit data in practice. Our findings indicate that: (1) standard
optimizers find minima where the model can only fit training sets with
significantly fewer samples than it has parameters; (2) convolutional networks
are more parameter-efficient than MLPs and ViTs, even on randomly labeled data;
(3) while stochastic training is thought to have a regularizing effect, SGD
actually finds minima that fit more training data than full-batch gradient
descent; (4) the difference in capacity to fit correctly labeled and
incorrectly labeled samples can be predictive of generalization; (5) ReLU
activation functions result in finding minima that fit more data despite being
designed to avoid vanishing and exploding gradients in deep architectures.