Generalización de Longitud en Transformadores Aritméticos
Length Generalization in Arithmetic Transformers
June 27, 2023
Autores: Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton
cs.AI
Resumen
Examinamos cómo los transformadores enfrentan dos desafíos: aprender aritmética básica de números enteros y generalizar a secuencias más largas que las vistas durante el entrenamiento. Encontramos que los embeddings de posición relativa permiten la generalización de longitud para tareas simples, como la suma: modelos entrenados con números de 5 dígitos pueden realizar sumas de 15 dígitos. Sin embargo, este método falla para la multiplicación, y proponemos el "priming" del conjunto de entrenamiento: agregar algunas secuencias largas (de 10 a 50) al conjunto de entrenamiento. Demostramos que el priming permite que modelos entrenados con multiplicaciones de 5 dígitos por 3 dígitos generalicen a ejemplos de 35 por 3. También mostramos que los modelos pueden ser preparados para diferentes longitudes de generalización, y que el tamaño de la muestra de priming escala como el logaritmo del tamaño del conjunto de entrenamiento. Finalmente, discutimos posibles aplicaciones del priming más allá de la aritmética.
English
We examine how transformers cope with two challenges: learning basic integer
arithmetic, and generalizing to longer sequences than seen during training. We
find that relative position embeddings enable length generalization for simple
tasks, such as addition: models trained on 5-digit numbers can perform
15-digit sums. However, this method fails for multiplication, and we propose
train set priming: adding a few (10 to 50) long sequences to the training
set. We show that priming allows models trained on 5-digit times 3-digit
multiplications to generalize to 35times 3 examples. We also show that
models can be primed for different generalization lengths, and that the priming
sample size scales as the logarithm of the training set size. Finally, we
discuss potential applications of priming beyond arithmetic.