Rekenen Onderwijzen aan Kleine Transformers
Teaching Arithmetic to Small Transformers
July 7, 2023
Auteurs: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos
cs.AI
Samenvatting
Grote taalmodellen zoals GPT-4 vertonen emergente capaciteiten voor algemene taken, zoals basisrekenkunde, wanneer ze getraind worden op uitgebreide tekstdata, zelfs als deze taken niet expliciet gecodeerd zijn door het ongesuperviseerde, volgende-token-voorspellingsdoel. Deze studie onderzoekt hoe kleine transformatoren, getraind vanaf willekeurige initialisatie, efficiënt rekenkundige bewerkingen zoals optellen, vermenigvuldigen en elementaire functies zoals vierkantswortel kunnen leren, gebruikmakend van het volgende-token-voorspellingsdoel. We tonen eerst aan dat conventionele trainingsdata niet het meest effectief zijn voor het leren van rekenkunde, en dat eenvoudige aanpassingen in de opmaak de nauwkeurigheid aanzienlijk kunnen verbeteren. Dit leidt tot scherpe faseovergangen als functie van de schaal van de trainingsdata, wat in sommige gevallen verklaard kan worden door verbanden met laag-rang matrixcompletie. Voortbouwend op eerder werk, trainen we vervolgens op data in de stijl van keten-van-gedachten die tussenliggende stapresultaten bevatten. Zelfs bij volledige afwezigheid van voorafgaande training, verbetert deze aanpak nauwkeurigheid, samplecomplexiteit en convergentiesnelheid significant en gelijktijdig. We bestuderen ook de wisselwerking tussen rekenkundige en tekstdata tijdens de training en onderzoeken de effecten van few-shot prompting, voorafgaande training en modelschaal. Daarnaast bespreken we uitdagingen op het gebied van lengtegeneralizatie. Ons werk benadrukt het belang van hoogwaardige, instructieve data die rekening houdt met de specifieke kenmerken van het volgende-woord-voorspellingsdoel voor het snel opwekken van rekenkundige capaciteiten.
English
Large language models like GPT-4 exhibit emergent capabilities across
general-purpose tasks, such as basic arithmetic, when trained on extensive text
data, even though these tasks are not explicitly encoded by the unsupervised,
next-token prediction objective. This study investigates how small
transformers, trained from random initialization, can efficiently learn
arithmetic operations such as addition, multiplication, and elementary
functions like square root, using the next-token prediction objective. We first
demonstrate that conventional training data is not the most effective for
arithmetic learning, and simple formatting changes can significantly improve
accuracy. This leads to sharp phase transitions as a function of training data
scale, which, in some cases, can be explained through connections to low-rank
matrix completion. Building on prior work, we then train on chain-of-thought
style data that includes intermediate step results. Even in the complete
absence of pretraining, this approach significantly and simultaneously improves
accuracy, sample complexity, and convergence speed. We also study the interplay
between arithmetic and text data during training and examine the effects of
few-shot prompting, pretraining, and model scale. Additionally, we discuss
length generalization challenges. Our work highlights the importance of
high-quality, instructive data that considers the particular characteristics of
the next-word prediction objective for rapidly eliciting arithmetic
capabilities.