Les Transformeurs Linéaires sont des Apprenants In-Context Polyvalents
Linear Transformers are Versatile In-Context Learners
February 21, 2024
Auteurs: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI
Résumé
Des recherches récentes ont démontré que les transformers, en particulier les modèles d'attention linéaire, exécutent implicitement des algorithmes similaires à la descente de gradient sur les données fournies en contexte lors de leur étape d'inférence directe. Cependant, leur capacité à traiter des problèmes plus complexes reste inexplorée. Dans cet article, nous prouvons que tout transformer linéaire maintient un modèle linéaire implicite et peut être interprété comme effectuant une variante de la descente de gradient préconditionnée. Nous étudions également l'utilisation des transformers linéaires dans un scénario difficile où les données d'entraînement sont corrompues par différents niveaux de bruit. De manière remarquable, nous démontrons que pour ce problème, les transformers linéaires découvrent un algorithme d'optimisation complexe et hautement efficace, surpassant ou égalant en performance de nombreuses bases de référence raisonnables. Nous rétro-concevons cet algorithme et montrons qu'il s'agit d'une approche novatrice incorporant une dynamique de momentum et une mise à l'échelle adaptative basée sur les niveaux de bruit. Nos résultats montrent que même les transformers linéaires possèdent la capacité surprenante de découvrir des stratégies d'optimisation sophistiquées.
English
Recent research has demonstrated that transformers, particularly linear
attention models, implicitly execute gradient-descent-like algorithms on data
provided in-context during their forward inference step. However, their
capability in handling more complex problems remains unexplored. In this paper,
we prove that any linear transformer maintains an implicit linear model and can
be interpreted as performing a variant of preconditioned gradient descent. We
also investigate the use of linear transformers in a challenging scenario where
the training data is corrupted with different levels of noise. Remarkably, we
demonstrate that for this problem linear transformers discover an intricate and
highly effective optimization algorithm, surpassing or matching in performance
many reasonable baselines. We reverse-engineer this algorithm and show that it
is a novel approach incorporating momentum and adaptive rescaling based on
noise levels. Our findings show that even linear transformers possess the
surprising ability to discover sophisticated optimization strategies.