I Transformer Lineari Sono Apprenditori Versatili in Contesto
Linear Transformers are Versatile In-Context Learners
February 21, 2024
Autori: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI
Abstract
Recenti ricerche hanno dimostrato che i transformer, in particolare i modelli di attenzione lineare, eseguono implicitamente algoritmi simili alla discesa del gradiente sui dati forniti in-context durante il loro passaggio di inferenza in avanti. Tuttavia, la loro capacità di gestire problemi più complessi rimane inesplorata. In questo articolo, dimostriamo che qualsiasi transformer lineare mantiene un modello lineare implicito e può essere interpretato come l'esecuzione di una variante della discesa del gradiente precondizionata. Investigiamo inoltre l'uso dei transformer lineari in uno scenario impegnativo in cui i dati di addestramento sono corrotti con diversi livelli di rumore. In modo notevole, dimostriamo che per questo problema i transformer lineari scoprono un algoritmo di ottimizzazione intricato e altamente efficace, superando o eguagliando in prestazioni molte baseline ragionevoli. Ingegnerizziamo inversamente questo algoritmo e mostriamo che si tratta di un approccio innovativo che incorpora momentum e riscalamento adattivo basato sui livelli di rumore. I nostri risultati mostrano che persino i transformer lineari possiedono la sorprendente capacità di scoprire strategie di ottimizzazione sofisticate.
English
Recent research has demonstrated that transformers, particularly linear
attention models, implicitly execute gradient-descent-like algorithms on data
provided in-context during their forward inference step. However, their
capability in handling more complex problems remains unexplored. In this paper,
we prove that any linear transformer maintains an implicit linear model and can
be interpreted as performing a variant of preconditioned gradient descent. We
also investigate the use of linear transformers in a challenging scenario where
the training data is corrupted with different levels of noise. Remarkably, we
demonstrate that for this problem linear transformers discover an intricate and
highly effective optimization algorithm, surpassing or matching in performance
many reasonable baselines. We reverse-engineer this algorithm and show that it
is a novel approach incorporating momentum and adaptive rescaling based on
noise levels. Our findings show that even linear transformers possess the
surprising ability to discover sophisticated optimization strategies.