ChatPaper.aiChatPaper

Los Transformadores Lineales son Aprendices Versátiles en Contexto.

Linear Transformers are Versatile In-Context Learners

February 21, 2024
Autores: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI

Resumen

Investigaciones recientes han demostrado que los transformadores, particularmente los modelos de atención lineal, ejecutan implícitamente algoritmos similares al descenso de gradiente sobre los datos proporcionados en contexto durante su paso de inferencia hacia adelante. Sin embargo, su capacidad para manejar problemas más complejos sigue sin explorarse. En este artículo, demostramos que cualquier transformador lineal mantiene un modelo lineal implícito y puede interpretarse como si realizara una variante de descenso de gradiente precondicionado. También investigamos el uso de transformadores lineales en un escenario desafiante donde los datos de entrenamiento están corrompidos con diferentes niveles de ruido. Notablemente, demostramos que, para este problema, los transformadores lineales descubren un algoritmo de optimización intrincado y altamente efectivo, superando o igualando en rendimiento a muchas líneas base razonables. Ingeniería inversa de este algoritmo revela que se trata de un enfoque novedoso que incorpora momentum y reescalado adaptativo basado en los niveles de ruido. Nuestros hallazgos muestran que incluso los transformadores lineales poseen la sorprendente capacidad de descubrir estrategias de optimización sofisticadas.
English
Recent research has demonstrated that transformers, particularly linear attention models, implicitly execute gradient-descent-like algorithms on data provided in-context during their forward inference step. However, their capability in handling more complex problems remains unexplored. In this paper, we prove that any linear transformer maintains an implicit linear model and can be interpreted as performing a variant of preconditioned gradient descent. We also investigate the use of linear transformers in a challenging scenario where the training data is corrupted with different levels of noise. Remarkably, we demonstrate that for this problem linear transformers discover an intricate and highly effective optimization algorithm, surpassing or matching in performance many reasonable baselines. We reverse-engineer this algorithm and show that it is a novel approach incorporating momentum and adaptive rescaling based on noise levels. Our findings show that even linear transformers possess the surprising ability to discover sophisticated optimization strategies.
PDF72December 15, 2024