I Transformer Lineari Sono Apprenditori Versatili in Contesto

Abstract

Recenti ricerche hanno dimostrato che i transformer, in particolare i modelli di attenzione lineare, eseguono implicitamente algoritmi simili alla discesa del gradiente sui dati forniti in-context durante il loro passaggio di inferenza in avanti. Tuttavia, la loro capacità di gestire problemi più complessi rimane inesplorata. In questo articolo, dimostriamo che qualsiasi transformer lineare mantiene un modello lineare implicito e può essere interpretato come l'esecuzione di una variante della discesa del gradiente precondizionata. Investigiamo inoltre l'uso dei transformer lineari in uno scenario impegnativo in cui i dati di addestramento sono corrotti con diversi livelli di rumore. In modo notevole, dimostriamo che per questo problema i transformer lineari scoprono un algoritmo di ottimizzazione intricato e altamente efficace, superando o eguagliando in prestazioni molte baseline ragionevoli. Ingegnerizziamo inversamente questo algoritmo e mostriamo che si tratta di un approccio innovativo che incorpora momentum e riscalamento adattivo basato sui livelli di rumore. I nostri risultati mostrano che persino i transformer lineari possiedono la sorprendente capacità di scoprire strategie di ottimizzazione sofisticate.

English

Recent research has demonstrated that transformers, particularly linear attention models, implicitly execute gradient-descent-like algorithms on data provided in-context during their forward inference step. However, their capability in handling more complex problems remains unexplored. In this paper, we prove that any linear transformer maintains an implicit linear model and can be interpreted as performing a variant of preconditioned gradient descent. We also investigate the use of linear transformers in a challenging scenario where the training data is corrupted with different levels of noise. Remarkably, we demonstrate that for this problem linear transformers discover an intricate and highly effective optimization algorithm, surpassing or matching in performance many reasonable baselines. We reverse-engineer this algorithm and show that it is a novel approach incorporating momentum and adaptive rescaling based on noise levels. Our findings show that even linear transformers possess the surprising ability to discover sophisticated optimization strategies.

I Transformer Lineari Sono Apprenditori Versatili in Contesto

Linear Transformers are Versatile In-Context Learners

Abstract

Support