Линейные трансформеры являются универсальными моделями для обучения в контексте.
Linear Transformers are Versatile In-Context Learners
February 21, 2024
Авторы: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI
Аннотация
Недавние исследования показали, что трансформеры, в частности модели с линейным вниманием, неявно выполняют алгоритмы, подобные градиентному спуску, на данных, предоставленных в контексте, во время их прямого прохода. Однако их способность справляться с более сложными задачами остается неисследованной. В данной работе мы доказываем, что любой линейный трансформер поддерживает неявную линейную модель и может интерпретироваться как выполняющий вариант предобусловленного градиентного спуска. Мы также исследуем использование линейных трансформеров в сложном сценарии, где обучающие данные искажены различными уровнями шума. Примечательно, что мы демонстрируем, что для этой задачи линейные трансформеры обнаруживают сложный и высокоэффективный алгоритм оптимизации, превосходящий или сопоставимый по производительности со многими разумными базовыми подходами. Мы реконструируем этот алгоритм и показываем, что он представляет собой новый подход, включающий импульс и адаптивное масштабирование в зависимости от уровня шума. Наши результаты показывают, что даже линейные трансформеры обладают удивительной способностью обнаруживать сложные стратегии оптимизации.
English
Recent research has demonstrated that transformers, particularly linear
attention models, implicitly execute gradient-descent-like algorithms on data
provided in-context during their forward inference step. However, their
capability in handling more complex problems remains unexplored. In this paper,
we prove that any linear transformer maintains an implicit linear model and can
be interpreted as performing a variant of preconditioned gradient descent. We
also investigate the use of linear transformers in a challenging scenario where
the training data is corrupted with different levels of noise. Remarkably, we
demonstrate that for this problem linear transformers discover an intricate and
highly effective optimization algorithm, surpassing or matching in performance
many reasonable baselines. We reverse-engineer this algorithm and show that it
is a novel approach incorporating momentum and adaptive rescaling based on
noise levels. Our findings show that even linear transformers possess the
surprising ability to discover sophisticated optimization strategies.