Enseigner l'arithmétique aux petits transformeurs

Résumé

Les grands modèles de langage comme GPT-4 manifestent des capacités émergentes dans des tâches généralistes, telles que l'arithmétique de base, lorsqu'ils sont entraînés sur de vastes ensembles de données textuelles, même si ces tâches ne sont pas explicitement encodées par l'objectif non supervisé de prédiction du token suivant. Cette étude explore comment de petits transformeurs, entraînés à partir d'une initialisation aléatoire, peuvent apprendre efficacement des opérations arithmétiques comme l'addition, la multiplication et des fonctions élémentaires telles que la racine carrée, en utilisant l'objectif de prédiction du token suivant. Nous montrons d'abord que les données d'entraînement conventionnelles ne sont pas les plus efficaces pour l'apprentissage de l'arithmétique, et que de simples modifications de formatage peuvent considérablement améliorer la précision. Cela conduit à des transitions de phase marquées en fonction de l'échelle des données d'entraînement, qui, dans certains cas, peuvent être expliquées par des liens avec la complétion de matrices de faible rang. En nous appuyant sur des travaux antérieurs, nous entraînons ensuite sur des données de type "chaîne de pensée" incluant les résultats des étapes intermédiaires. Même en l'absence totale de pré-entraînement, cette approche améliore significativement et simultanément la précision, la complexité en échantillons et la vitesse de convergence. Nous étudions également l'interaction entre les données arithmétiques et textuelles pendant l'entraînement, et examinons les effets du prompting en few-shot, du pré-entraînement et de l'échelle du modèle. De plus, nous discutons des défis liés à la généralisation en longueur. Notre travail souligne l'importance de données de haute qualité et instructives, qui prennent en compte les caractéristiques particulières de l'objectif de prédiction du mot suivant, pour susciter rapidement des capacités arithmétiques.

English

Large language models like GPT-4 exhibit emergent capabilities across general-purpose tasks, such as basic arithmetic, when trained on extensive text data, even though these tasks are not explicitly encoded by the unsupervised, next-token prediction objective. This study investigates how small transformers, trained from random initialization, can efficiently learn arithmetic operations such as addition, multiplication, and elementary functions like square root, using the next-token prediction objective. We first demonstrate that conventional training data is not the most effective for arithmetic learning, and simple formatting changes can significantly improve accuracy. This leads to sharp phase transitions as a function of training data scale, which, in some cases, can be explained through connections to low-rank matrix completion. Building on prior work, we then train on chain-of-thought style data that includes intermediate step results. Even in the complete absence of pretraining, this approach significantly and simultaneously improves accuracy, sample complexity, and convergence speed. We also study the interplay between arithmetic and text data during training and examine the effects of few-shot prompting, pretraining, and model scale. Additionally, we discuss length generalization challenges. Our work highlights the importance of high-quality, instructive data that considers the particular characteristics of the next-word prediction objective for rapidly eliciting arithmetic capabilities.

Enseigner l'arithmétique aux petits transformeurs

Teaching Arithmetic to Small Transformers

Résumé

Support