ChatPaper.aiChatPaper

Oude Optimizer, Nieuwe Norm: Een Anthologie

Old Optimizer, New Norm: An Anthology

September 30, 2024
Auteurs: Jeremy Bernstein, Laker Newhouse
cs.AI

Samenvatting

Diepe leeroptimalisatoren worden vaak gemotiveerd door een mix van convexe en benaderende tweede-orde theorie. We selecteren drie van dergelijke methoden - Adam, Shampoo en Prodigy - en betogen dat elke methode in plaats daarvan begrepen kan worden als een eerst-orde methode zonder convexe aannames. Sterker nog, nadat de exponentiële bewegende gemiddelden zijn uitgeschakeld, is elke methode equivalent aan steilste afdaling onder een bepaalde norm. Door deze observatie te generaliseren, schetsen we een nieuw ontwerpruimte voor trainingsalgoritmen. Verschillende operatornormen moeten worden toegewezen aan verschillende tensors op basis van de rol die de tensor speelt binnen het netwerk. Bijvoorbeeld, terwijl lineaire en embedding lagen dezelfde gewichtsruimte van R^{mtimes n} kunnen hebben, spelen deze lagen verschillende rollen en zouden verschillende normen moeten worden toegewezen. We hopen dat dit idee van zorgvuldig metrizeren van de neurale architectuur zou kunnen leiden tot meer stabiele, schaalbare en inderdaad snellere training.
English
Deep learning optimizers are often motivated through a mix of convex and approximate second-order theory. We select three such methods -- Adam, Shampoo and Prodigy -- and argue that each method can instead be understood as a squarely first-order method without convexity assumptions. In fact, after switching off exponential moving averages, each method is equivalent to steepest descent under a particular norm. By generalizing this observation, we chart a new design space for training algorithms. Different operator norms should be assigned to different tensors based on the role that the tensor plays within the network. For example, while linear and embedding layers may have the same weight space of R^{mtimes n}, these layers play different roles and should be assigned different norms. We hope that this idea of carefully metrizing the neural architecture might lead to more stable, scalable and indeed faster training.

Summary

AI-Generated Summary

PDF42November 16, 2024