Lineare Transformer sind vielseitige In-Context-Lerner.
Linear Transformers are Versatile In-Context Learners
February 21, 2024
Autoren: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI
Zusammenfassung
Aktuelle Forschungen haben gezeigt, dass Transformer, insbesondere lineare Aufmerksamkeitsmodelle, implizit gradientenabstiegsähnliche Algorithmen auf den im Kontext bereitgestellten Daten während ihres Vorwärtsinferenzschritts ausführen. Ihre Fähigkeit, komplexere Probleme zu bewältigen, bleibt jedoch unerforscht. In diesem Artikel beweisen wir, dass jeder lineare Transformer ein implizites lineares Modell beibehält und als Ausführung einer Variante des vorkonditionierten Gradientenabstiegs interpretiert werden kann. Wir untersuchen auch den Einsatz linearer Transformer in einem anspruchsvollen Szenario, in dem die Trainingsdaten mit unterschiedlichen Rauschpegeln verunreinigt sind. Bemerkenswerterweise zeigen wir, dass lineare Transformer für dieses Problem einen komplexen und äußerst effektiven Optimierungsalgorithmus entdecken, der viele vernünftige Baselines in der Leistung übertrifft oder erreicht. Wir rekonstruieren diesen Algorithmus und zeigen, dass es sich um einen neuartigen Ansatz handelt, der Momentum und adaptive Skalierung basierend auf den Rauschpegeln einbezieht. Unsere Ergebnisse zeigen, dass sogar lineare Transformer die überraschende Fähigkeit besitzen, ausgeklügelte Optimierungsstrategien zu entdecken.
English
Recent research has demonstrated that transformers, particularly linear
attention models, implicitly execute gradient-descent-like algorithms on data
provided in-context during their forward inference step. However, their
capability in handling more complex problems remains unexplored. In this paper,
we prove that any linear transformer maintains an implicit linear model and can
be interpreted as performing a variant of preconditioned gradient descent. We
also investigate the use of linear transformers in a challenging scenario where
the training data is corrupted with different levels of noise. Remarkably, we
demonstrate that for this problem linear transformers discover an intricate and
highly effective optimization algorithm, surpassing or matching in performance
many reasonable baselines. We reverse-engineer this algorithm and show that it
is a novel approach incorporating momentum and adaptive rescaling based on
noise levels. Our findings show that even linear transformers possess the
surprising ability to discover sophisticated optimization strategies.