Rekenen Onderwijzen aan Kleine Transformers

Samenvatting

Grote taalmodellen zoals GPT-4 vertonen emergente capaciteiten voor algemene taken, zoals basisrekenkunde, wanneer ze getraind worden op uitgebreide tekstdata, zelfs als deze taken niet expliciet gecodeerd zijn door het ongesuperviseerde, volgende-token-voorspellingsdoel. Deze studie onderzoekt hoe kleine transformatoren, getraind vanaf willekeurige initialisatie, efficiënt rekenkundige bewerkingen zoals optellen, vermenigvuldigen en elementaire functies zoals vierkantswortel kunnen leren, gebruikmakend van het volgende-token-voorspellingsdoel. We tonen eerst aan dat conventionele trainingsdata niet het meest effectief zijn voor het leren van rekenkunde, en dat eenvoudige aanpassingen in de opmaak de nauwkeurigheid aanzienlijk kunnen verbeteren. Dit leidt tot scherpe faseovergangen als functie van de schaal van de trainingsdata, wat in sommige gevallen verklaard kan worden door verbanden met laag-rang matrixcompletie. Voortbouwend op eerder werk, trainen we vervolgens op data in de stijl van keten-van-gedachten die tussenliggende stapresultaten bevatten. Zelfs bij volledige afwezigheid van voorafgaande training, verbetert deze aanpak nauwkeurigheid, samplecomplexiteit en convergentiesnelheid significant en gelijktijdig. We bestuderen ook de wisselwerking tussen rekenkundige en tekstdata tijdens de training en onderzoeken de effecten van few-shot prompting, voorafgaande training en modelschaal. Daarnaast bespreken we uitdagingen op het gebied van lengtegeneralizatie. Ons werk benadrukt het belang van hoogwaardige, instructieve data die rekening houdt met de specifieke kenmerken van het volgende-woord-voorspellingsdoel voor het snel opwekken van rekenkundige capaciteiten.

English

Large language models like GPT-4 exhibit emergent capabilities across general-purpose tasks, such as basic arithmetic, when trained on extensive text data, even though these tasks are not explicitly encoded by the unsupervised, next-token prediction objective. This study investigates how small transformers, trained from random initialization, can efficiently learn arithmetic operations such as addition, multiplication, and elementary functions like square root, using the next-token prediction objective. We first demonstrate that conventional training data is not the most effective for arithmetic learning, and simple formatting changes can significantly improve accuracy. This leads to sharp phase transitions as a function of training data scale, which, in some cases, can be explained through connections to low-rank matrix completion. Building on prior work, we then train on chain-of-thought style data that includes intermediate step results. Even in the complete absence of pretraining, this approach significantly and simultaneously improves accuracy, sample complexity, and convergence speed. We also study the interplay between arithmetic and text data during training and examine the effects of few-shot prompting, pretraining, and model scale. Additionally, we discuss length generalization challenges. Our work highlights the importance of high-quality, instructive data that considers the particular characteristics of the next-word prediction objective for rapidly eliciting arithmetic capabilities.

Rekenen Onderwijzen aan Kleine Transformers

Teaching Arithmetic to Small Transformers

Samenvatting

Support