Линейные трансформеры являются универсальными моделями для обучения в контексте.

Аннотация

Недавние исследования показали, что трансформеры, в частности модели с линейным вниманием, неявно выполняют алгоритмы, подобные градиентному спуску, на данных, предоставленных в контексте, во время их прямого прохода. Однако их способность справляться с более сложными задачами остается неисследованной. В данной работе мы доказываем, что любой линейный трансформер поддерживает неявную линейную модель и может интерпретироваться как выполняющий вариант предобусловленного градиентного спуска. Мы также исследуем использование линейных трансформеров в сложном сценарии, где обучающие данные искажены различными уровнями шума. Примечательно, что мы демонстрируем, что для этой задачи линейные трансформеры обнаруживают сложный и высокоэффективный алгоритм оптимизации, превосходящий или сопоставимый по производительности со многими разумными базовыми подходами. Мы реконструируем этот алгоритм и показываем, что он представляет собой новый подход, включающий импульс и адаптивное масштабирование в зависимости от уровня шума. Наши результаты показывают, что даже линейные трансформеры обладают удивительной способностью обнаруживать сложные стратегии оптимизации.

English

Recent research has demonstrated that transformers, particularly linear attention models, implicitly execute gradient-descent-like algorithms on data provided in-context during their forward inference step. However, their capability in handling more complex problems remains unexplored. In this paper, we prove that any linear transformer maintains an implicit linear model and can be interpreted as performing a variant of preconditioned gradient descent. We also investigate the use of linear transformers in a challenging scenario where the training data is corrupted with different levels of noise. Remarkably, we demonstrate that for this problem linear transformers discover an intricate and highly effective optimization algorithm, surpassing or matching in performance many reasonable baselines. We reverse-engineer this algorithm and show that it is a novel approach incorporating momentum and adaptive rescaling based on noise levels. Our findings show that even linear transformers possess the surprising ability to discover sophisticated optimization strategies.

Линейные трансформеры являются универсальными моделями для обучения в контексте.

Linear Transformers are Versatile In-Context Learners

Аннотация

Support