Antigo Otimizador, Nova Norma: Uma Antologia
Old Optimizer, New Norm: An Anthology
September 30, 2024
Autores: Jeremy Bernstein, Laker Newhouse
cs.AI
Resumo
Os otimizadores de aprendizado profundo são frequentemente motivados por uma combinação de teoria convexa e aproximada de segunda ordem. Selecionamos três desses métodos - Adam, Shampoo e Prodigy - e argumentamos que cada método pode, em vez disso, ser compreendido como um método de primeira ordem sem assumir convexidade. Na verdade, após desativar as médias móveis exponenciais, cada método é equivalente a descida mais íngreme sob uma norma específica. Ao generalizar essa observação, traçamos um novo espaço de design para algoritmos de treinamento. Normas de operador diferentes devem ser atribuídas a tensores diferentes com base no papel que o tensor desempenha dentro da rede. Por exemplo, enquanto camadas lineares e de incorporação podem ter o mesmo espaço de peso de R^{mtimes n}, essas camadas desempenham papéis diferentes e devem ser atribuídas normas diferentes. Esperamos que essa ideia de metrificar cuidadosamente a arquitetura neural possa levar a um treinamento mais estável, escalável e, de fato, mais rápido.
English
Deep learning optimizers are often motivated through a mix of convex and
approximate second-order theory. We select three such methods -- Adam, Shampoo
and Prodigy -- and argue that each method can instead be understood as a
squarely first-order method without convexity assumptions. In fact, after
switching off exponential moving averages, each method is equivalent to
steepest descent under a particular norm. By generalizing this observation, we
chart a new design space for training algorithms. Different operator norms
should be assigned to different tensors based on the role that the tensor plays
within the network. For example, while linear and embedding layers may have the
same weight space of R^{mtimes n}, these layers play different
roles and should be assigned different norms. We hope that this idea of
carefully metrizing the neural architecture might lead to more stable, scalable
and indeed faster training.Summary
AI-Generated Summary