Lineaire Transformers zijn veelzijdige in-context leerders.
Linear Transformers are Versatile In-Context Learners
February 21, 2024
Auteurs: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI
Samenvatting
Recent onderzoek heeft aangetoond dat transformers, met name lineaire aandachtmodellen, impliciet algoritmen die lijken op gradient descent uitvoeren op gegevens die in-context worden aangeboden tijdens hun forward inferentiestap. Hun vermogen om complexere problemen aan te pakken, blijft echter onontgonnen. In dit artikel bewijzen we dat elke lineaire transformer een impliciet lineair model behoudt en kan worden geïnterpreteerd als het uitvoeren van een variant van voorwaardelijke gradient descent. We onderzoeken ook het gebruik van lineaire transformers in een uitdagend scenario waarbij de trainingsgegevens zijn vervuild met verschillende niveaus van ruis. Opmerkelijk genoeg tonen we aan dat lineaire transformers voor dit probleem een ingewikkeld en zeer effectief optimalisatiealgoritme ontdekken, dat de prestaties van veel redelijke baselines overtreft of evenaart. We reverse-engineeren dit algoritme en laten zien dat het een nieuwe aanpak is die momentum en adaptieve herschaling op basis van ruisniveaus omvat. Onze bevindingen tonen aan dat zelfs lineaire transformers de verrassende capaciteit hebben om geavanceerde optimalisatiestrategieën te ontdekken.
English
Recent research has demonstrated that transformers, particularly linear
attention models, implicitly execute gradient-descent-like algorithms on data
provided in-context during their forward inference step. However, their
capability in handling more complex problems remains unexplored. In this paper,
we prove that any linear transformer maintains an implicit linear model and can
be interpreted as performing a variant of preconditioned gradient descent. We
also investigate the use of linear transformers in a challenging scenario where
the training data is corrupted with different levels of noise. Remarkably, we
demonstrate that for this problem linear transformers discover an intricate and
highly effective optimization algorithm, surpassing or matching in performance
many reasonable baselines. We reverse-engineer this algorithm and show that it
is a novel approach incorporating momentum and adaptive rescaling based on
noise levels. Our findings show that even linear transformers possess the
surprising ability to discover sophisticated optimization strategies.