ChatPaper.aiChatPaper

Старый оптимизатор, новая норма: сборник

Old Optimizer, New Norm: An Anthology

September 30, 2024
Авторы: Jeremy Bernstein, Laker Newhouse
cs.AI

Аннотация

Оптимизаторы глубокого обучения часто мотивируются смесью выпуклой и приближенной теории второго порядка. Мы выбираем три таких метода - Adam, Shampoo и Prodigy - и утверждаем, что каждый из них вместо этого может быть понят как метод первого порядка без предположений о выпуклости. Фактически, отключив экспоненциальное скользящее среднее, каждый метод эквивалентен методу крутейшего спуска с определенной нормой. Обобщив это наблюдение, мы определяем новое пространство проектирования для алгоритмов обучения. Различным тензорам должны быть назначены различные операторные нормы в зависимости от роли, которую тензор играет в сети. Например, хотя линейные и встраивающие слои могут иметь одно и то же пространство весов R^{m x n}, эти слои выполняют разные функции и должны быть назначены разные нормы. Мы надеемся, что идея тщательного метризации нейронной архитектуры может привести к более стабильному, масштабируемому и, действительно, более быстрому обучению.
English
Deep learning optimizers are often motivated through a mix of convex and approximate second-order theory. We select three such methods -- Adam, Shampoo and Prodigy -- and argue that each method can instead be understood as a squarely first-order method without convexity assumptions. In fact, after switching off exponential moving averages, each method is equivalent to steepest descent under a particular norm. By generalizing this observation, we chart a new design space for training algorithms. Different operator norms should be assigned to different tensors based on the role that the tensor plays within the network. For example, while linear and embedding layers may have the same weight space of R^{mtimes n}, these layers play different roles and should be assigned different norms. We hope that this idea of carefully metrizing the neural architecture might lead to more stable, scalable and indeed faster training.

Summary

AI-Generated Summary

PDF42November 16, 2024