ChatPaper.aiChatPaper

Generalización de Longitud en Transformadores Aritméticos

Length Generalization in Arithmetic Transformers

June 27, 2023
Autores: Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton
cs.AI

Resumen

Examinamos cómo los transformadores enfrentan dos desafíos: aprender aritmética básica de números enteros y generalizar a secuencias más largas que las vistas durante el entrenamiento. Encontramos que los embeddings de posición relativa permiten la generalización de longitud para tareas simples, como la suma: modelos entrenados con números de 5 dígitos pueden realizar sumas de 15 dígitos. Sin embargo, este método falla para la multiplicación, y proponemos el "priming" del conjunto de entrenamiento: agregar algunas secuencias largas (de 10 a 50) al conjunto de entrenamiento. Demostramos que el priming permite que modelos entrenados con multiplicaciones de 5 dígitos por 3 dígitos generalicen a ejemplos de 35 por 3. También mostramos que los modelos pueden ser preparados para diferentes longitudes de generalización, y que el tamaño de la muestra de priming escala como el logaritmo del tamaño del conjunto de entrenamiento. Finalmente, discutimos posibles aplicaciones del priming más allá de la aritmética.
English
We examine how transformers cope with two challenges: learning basic integer arithmetic, and generalizing to longer sequences than seen during training. We find that relative position embeddings enable length generalization for simple tasks, such as addition: models trained on 5-digit numbers can perform 15-digit sums. However, this method fails for multiplication, and we propose train set priming: adding a few (10 to 50) long sequences to the training set. We show that priming allows models trained on 5-digit times 3-digit multiplications to generalize to 35times 3 examples. We also show that models can be primed for different generalization lengths, and that the priming sample size scales as the logarithm of the training set size. Finally, we discuss potential applications of priming beyond arithmetic.
PDF40December 15, 2024