Insegnare l'aritmetica ai piccoli Transformer

Abstract

I grandi modelli linguistici come GPT-4 mostrano capacità emergenti in compiti di carattere generale, come l'aritmetica di base, quando vengono addestrati su estesi dati testuali, anche se questi compiti non sono esplicitamente codificati dall'obiettivo non supervisionato di previsione del token successivo. Questo studio indaga come piccoli trasformatori, addestrati partendo da un'inizializzazione casuale, possano apprendere in modo efficiente operazioni aritmetiche come addizione, moltiplicazione e funzioni elementari come la radice quadrata, utilizzando l'obiettivo di previsione del token successivo. Dimostriamo innanzitutto che i dati di addestramento convenzionali non sono i più efficaci per l'apprendimento aritmetico e che semplici modifiche alla formattazione possono migliorare significativamente l'accuratezza. Ciò porta a transizioni di fase nette in funzione della scala dei dati di addestramento, che, in alcuni casi, possono essere spiegate attraverso connessioni con il completamento di matrici a basso rango. Basandoci su lavori precedenti, addestriamo poi su dati in stile "catena di pensiero" che includono i risultati intermedi. Anche in completa assenza di pre-addestramento, questo approccio migliora significativamente e simultaneamente l'accuratezza, la complessità campionaria e la velocità di convergenza. Studiamo inoltre l'interazione tra dati aritmetici e testuali durante l'addestramento ed esaminiamo gli effetti del prompting few-shot, del pre-addestramento e della scala del modello. Inoltre, discutiamo le sfide della generalizzazione sulla lunghezza. Il nostro lavoro sottolinea l'importanza di dati di alta qualità e istruttivi che tengano conto delle caratteristiche particolari dell'obiettivo di previsione della parola successiva per elicitare rapidamente capacità aritmetiche.

English

Large language models like GPT-4 exhibit emergent capabilities across general-purpose tasks, such as basic arithmetic, when trained on extensive text data, even though these tasks are not explicitly encoded by the unsupervised, next-token prediction objective. This study investigates how small transformers, trained from random initialization, can efficiently learn arithmetic operations such as addition, multiplication, and elementary functions like square root, using the next-token prediction objective. We first demonstrate that conventional training data is not the most effective for arithmetic learning, and simple formatting changes can significantly improve accuracy. This leads to sharp phase transitions as a function of training data scale, which, in some cases, can be explained through connections to low-rank matrix completion. Building on prior work, we then train on chain-of-thought style data that includes intermediate step results. Even in the complete absence of pretraining, this approach significantly and simultaneously improves accuracy, sample complexity, and convergence speed. We also study the interplay between arithmetic and text data during training and examine the effects of few-shot prompting, pretraining, and model scale. Additionally, we discuss length generalization challenges. Our work highlights the importance of high-quality, instructive data that considers the particular characteristics of the next-word prediction objective for rapidly eliciting arithmetic capabilities.

Insegnare l'aritmetica ai piccoli Transformer

Teaching Arithmetic to Small Transformers

Abstract

Support