Generalização de Comprimento em Transformadores Aritméticos
Length Generalization in Arithmetic Transformers
June 27, 2023
Autores: Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton
cs.AI
Resumo
Examinamos como os transformadores lidam com dois desafios: aprender aritmética básica de números inteiros e generalizar para sequências mais longas do que as vistas durante o treinamento. Descobrimos que embeddings de posição relativa permitem a generalização de comprimento para tarefas simples, como adição: modelos treinados com números de 5 dígitos conseguem realizar somas de 15 dígitos. No entanto, esse método falha para multiplicação, e propomos o priming do conjunto de treinamento: adicionar algumas (10 a 50) sequências longas ao conjunto de treinamento. Mostramos que o priming permite que modelos treinados com multiplicações de 5 dígitos por 3 dígitos generalizem para exemplos de 35 dígitos por 3. Também mostramos que os modelos podem ser preparados para diferentes comprimentos de generalização e que o tamanho da amostra de priming escala como o logaritmo do tamanho do conjunto de treinamento. Por fim, discutimos possíveis aplicações do priming além da aritmética.
English
We examine how transformers cope with two challenges: learning basic integer
arithmetic, and generalizing to longer sequences than seen during training. We
find that relative position embeddings enable length generalization for simple
tasks, such as addition: models trained on 5-digit numbers can perform
15-digit sums. However, this method fails for multiplication, and we propose
train set priming: adding a few (10 to 50) long sequences to the training
set. We show that priming allows models trained on 5-digit times 3-digit
multiplications to generalize to 35times 3 examples. We also show that
models can be primed for different generalization lengths, and that the priming
sample size scales as the logarithm of the training set size. Finally, we
discuss potential applications of priming beyond arithmetic.