ChatPaper.aiChatPaper

Transformers kunnen rekenen met de juiste embeddings.

Transformers Can Do Arithmetic with the Right Embeddings

May 27, 2024
Auteurs: Sean McLeish, Arpit Bansal, Alex Stein, Neel Jain, John Kirchenbauer, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Jonas Geiping, Avi Schwarzschild, Tom Goldstein
cs.AI

Samenvatting

De slechte prestaties van transformers bij rekenkundige taken lijken grotendeels voort te komen uit hun onvermogen om de exacte positie van elk cijfer binnen een grote reeks cijfers bij te houden. We lossen dit probleem op door aan elk cijfer een embedding toe te voegen die zijn positie ten opzichte van het begin van het getal codeert. Naast de boost die deze embeddings op zichzelf bieden, laten we zien dat deze oplossing architectuurwijzigingen zoals input-injectie en recurrente lagen mogelijk maakt, wat de prestaties nog verder verbetert. Met de posities opgelost, kunnen we het logische extrapolatievermogen van transformers bestuderen. Kunnen ze rekenkundige problemen oplossen die groter en complexer zijn dan die in hun trainingsdata? We ontdekken dat door te trainen op getallen van slechts 20 cijfers met een enkele GPU gedurende één dag, we state-of-the-art prestaties kunnen bereiken, met een nauwkeurigheid van tot 99% bij optelproblemen met 100 cijfers. Tot slot tonen we aan dat deze vooruitgang in rekenvaardigheid ook verbeteringen mogelijk maakt bij andere meerstaps redeneertaken, zoals sorteren en vermenigvuldigen.
English
The poor performance of transformers on arithmetic tasks seems to stem in large part from their inability to keep track of the exact position of each digit inside of a large span of digits. We mend this problem by adding an embedding to each digit that encodes its position relative to the start of the number. In addition to the boost these embeddings provide on their own, we show that this fix enables architectural modifications such as input injection and recurrent layers to improve performance even further. With positions resolved, we can study the logical extrapolation ability of transformers. Can they solve arithmetic problems that are larger and more complex than those in their training data? We find that training on only 20 digit numbers with a single GPU for one day, we can reach state-of-the-art performance, achieving up to 99% accuracy on 100 digit addition problems. Finally, we show that these gains in numeracy also unlock improvements on other multi-step reasoning tasks including sorting and multiplication.
PDF542December 12, 2024