Generalização de Comprimento em Transformadores Aritméticos

Resumo

Examinamos como os transformadores lidam com dois desafios: aprender aritmética básica de números inteiros e generalizar para sequências mais longas do que as vistas durante o treinamento. Descobrimos que embeddings de posição relativa permitem a generalização de comprimento para tarefas simples, como adição: modelos treinados com números de 5 dígitos conseguem realizar somas de 15 dígitos. No entanto, esse método falha para multiplicação, e propomos o priming do conjunto de treinamento: adicionar algumas (10 a 50) sequências longas ao conjunto de treinamento. Mostramos que o priming permite que modelos treinados com multiplicações de 5 dígitos por 3 dígitos generalizem para exemplos de 35 dígitos por 3. Também mostramos que os modelos podem ser preparados para diferentes comprimentos de generalização e que o tamanho da amostra de priming escala como o logaritmo do tamanho do conjunto de treinamento. Por fim, discutimos possíveis aplicações do priming além da aritmética.

English

We examine how transformers cope with two challenges: learning basic integer arithmetic, and generalizing to longer sequences than seen during training. We find that relative position embeddings enable length generalization for simple tasks, such as addition: models trained on 5-digit numbers can perform 15-digit sums. However, this method fails for multiplication, and we propose train set priming: adding a few (10 to 50) long sequences to the training set. We show that priming allows models trained on 5-digit times 3-digit multiplications to generalize to 35times 3 examples. We also show that models can be primed for different generalization lengths, and that the priming sample size scales as the logarithm of the training set size. Finally, we discuss potential applications of priming beyond arithmetic.

Generalização de Comprimento em Transformadores Aritméticos

Length Generalization in Arithmetic Transformers

Resumo

Support