Старый оптимизатор, новая норма: сборник
Old Optimizer, New Norm: An Anthology
September 30, 2024
Авторы: Jeremy Bernstein, Laker Newhouse
cs.AI
Аннотация
Оптимизаторы глубокого обучения часто мотивируются смесью выпуклой и приближенной теории второго порядка. Мы выбираем три таких метода - Adam, Shampoo и Prodigy - и утверждаем, что каждый из них вместо этого может быть понят как метод первого порядка без предположений о выпуклости. Фактически, отключив экспоненциальное скользящее среднее, каждый метод эквивалентен методу крутейшего спуска с определенной нормой. Обобщив это наблюдение, мы определяем новое пространство проектирования для алгоритмов обучения. Различным тензорам должны быть назначены различные операторные нормы в зависимости от роли, которую тензор играет в сети. Например, хотя линейные и встраивающие слои могут иметь одно и то же пространство весов R^{m x n}, эти слои выполняют разные функции и должны быть назначены разные нормы. Мы надеемся, что идея тщательного метризации нейронной архитектуры может привести к более стабильному, масштабируемому и, действительно, более быстрому обучению.
English
Deep learning optimizers are often motivated through a mix of convex and
approximate second-order theory. We select three such methods -- Adam, Shampoo
and Prodigy -- and argue that each method can instead be understood as a
squarely first-order method without convexity assumptions. In fact, after
switching off exponential moving averages, each method is equivalent to
steepest descent under a particular norm. By generalizing this observation, we
chart a new design space for training algorithms. Different operator norms
should be assigned to different tensors based on the role that the tensor plays
within the network. For example, while linear and embedding layers may have the
same weight space of R^{mtimes n}, these layers play different
roles and should be assigned different norms. We hope that this idea of
carefully metrizing the neural architecture might lead to more stable, scalable
and indeed faster training.Summary
AI-Generated Summary