ChatPaper.aiChatPaper

Lengtegeneralizatie in Rekenkundige Transformers

Length Generalization in Arithmetic Transformers

June 27, 2023
Auteurs: Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton
cs.AI

Samenvatting

We onderzoeken hoe transformers omgaan met twee uitdagingen: het leren van basis rekenkunde met gehele getallen, en het generaliseren naar langere reeksen dan tijdens de training zijn gezien. We ontdekken dat relatieve positie-embeddingen lengtegeneralisatie mogelijk maken voor eenvoudige taken, zoals optellen: modellen die getraind zijn op 5-cijferige getallen kunnen 15-cijferige sommen uitvoeren. Deze methode faalt echter voor vermenigvuldiging, en we stellen train set priming voor: het toevoegen van een paar (10 tot 50) lange reeksen aan de trainingsset. We laten zien dat priming modellen die getraind zijn op 5-cijferige keer 3-cijferige vermenigvuldigingen in staat stelt te generaliseren naar 35 keer 3 voorbeelden. We tonen ook aan dat modellen kunnen worden geprimed voor verschillende generalisatielengtes, en dat de grootte van de priming-steekproef schaalt als de logaritme van de grootte van de trainingsset. Tot slot bespreken we mogelijke toepassingen van priming buiten rekenkunde.
English
We examine how transformers cope with two challenges: learning basic integer arithmetic, and generalizing to longer sequences than seen during training. We find that relative position embeddings enable length generalization for simple tasks, such as addition: models trained on 5-digit numbers can perform 15-digit sums. However, this method fails for multiplication, and we propose train set priming: adding a few (10 to 50) long sequences to the training set. We show that priming allows models trained on 5-digit times 3-digit multiplications to generalize to 35times 3 examples. We also show that models can be primed for different generalization lengths, and that the priming sample size scales as the logarithm of the training set size. Finally, we discuss potential applications of priming beyond arithmetic.
PDF40December 15, 2024