Transformadores Lineares são Aprendizes Versáteis em Contexto
Linear Transformers are Versatile In-Context Learners
February 21, 2024
Autores: Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge
cs.AI
Resumo
Pesquisas recentes demonstraram que transformadores, particularmente modelos de atenção linear, executam implicitamente algoritmos semelhantes ao gradiente descendente nos dados fornecidos em contexto durante sua etapa de inferência direta. No entanto, sua capacidade de lidar com problemas mais complexos permanece inexplorada. Neste artigo, provamos que qualquer transformador linear mantém um modelo linear implícito e pode ser interpretado como realizando uma variante do gradiente descendente pré-condicionado. Também investigamos o uso de transformadores lineares em um cenário desafiador, onde os dados de treinamento são corrompidos com diferentes níveis de ruído. Notavelmente, demonstramos que, para esse problema, os transformadores lineares descobrem um algoritmo de otimização intricado e altamente eficaz, superando ou igualando em desempenho muitas linhas de base razoáveis. Nós engenhamos reversamente esse algoritmo e mostramos que ele é uma abordagem nova que incorpora momento e redimensionamento adaptativo com base nos níveis de ruído. Nossas descobertas mostram que até mesmo transformadores lineares possuem a surpreendente capacidade de descobrir estratégias de otimização sofisticadas.
English
Recent research has demonstrated that transformers, particularly linear
attention models, implicitly execute gradient-descent-like algorithms on data
provided in-context during their forward inference step. However, their
capability in handling more complex problems remains unexplored. In this paper,
we prove that any linear transformer maintains an implicit linear model and can
be interpreted as performing a variant of preconditioned gradient descent. We
also investigate the use of linear transformers in a challenging scenario where
the training data is corrupted with different levels of noise. Remarkably, we
demonstrate that for this problem linear transformers discover an intricate and
highly effective optimization algorithm, surpassing or matching in performance
many reasonable baselines. We reverse-engineer this algorithm and show that it
is a novel approach incorporating momentum and adaptive rescaling based on
noise levels. Our findings show that even linear transformers possess the
surprising ability to discover sophisticated optimization strategies.