ChatPaper.aiChatPaper

Antigo Otimizador, Nova Norma: Uma Antologia

Old Optimizer, New Norm: An Anthology

September 30, 2024
Autores: Jeremy Bernstein, Laker Newhouse
cs.AI

Resumo

Os otimizadores de aprendizado profundo são frequentemente motivados por uma combinação de teoria convexa e aproximada de segunda ordem. Selecionamos três desses métodos - Adam, Shampoo e Prodigy - e argumentamos que cada método pode, em vez disso, ser compreendido como um método de primeira ordem sem assumir convexidade. Na verdade, após desativar as médias móveis exponenciais, cada método é equivalente a descida mais íngreme sob uma norma específica. Ao generalizar essa observação, traçamos um novo espaço de design para algoritmos de treinamento. Normas de operador diferentes devem ser atribuídas a tensores diferentes com base no papel que o tensor desempenha dentro da rede. Por exemplo, enquanto camadas lineares e de incorporação podem ter o mesmo espaço de peso de R^{mtimes n}, essas camadas desempenham papéis diferentes e devem ser atribuídas normas diferentes. Esperamos que essa ideia de metrificar cuidadosamente a arquitetura neural possa levar a um treinamento mais estável, escalável e, de fato, mais rápido.
English
Deep learning optimizers are often motivated through a mix of convex and approximate second-order theory. We select three such methods -- Adam, Shampoo and Prodigy -- and argue that each method can instead be understood as a squarely first-order method without convexity assumptions. In fact, after switching off exponential moving averages, each method is equivalent to steepest descent under a particular norm. By generalizing this observation, we chart a new design space for training algorithms. Different operator norms should be assigned to different tensors based on the role that the tensor plays within the network. For example, while linear and embedding layers may have the same weight space of R^{mtimes n}, these layers play different roles and should be assigned different norms. We hope that this idea of carefully metrizing the neural architecture might lead to more stable, scalable and indeed faster training.

Summary

AI-Generated Summary

PDF42November 16, 2024