Enseigner l'arithmétique aux petits transformeurs
Teaching Arithmetic to Small Transformers
July 7, 2023
Auteurs: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos
cs.AI
Résumé
Les grands modèles de langage comme GPT-4 manifestent des capacités émergentes dans des tâches généralistes, telles que l'arithmétique de base, lorsqu'ils sont entraînés sur de vastes ensembles de données textuelles, même si ces tâches ne sont pas explicitement encodées par l'objectif non supervisé de prédiction du token suivant. Cette étude explore comment de petits transformeurs, entraînés à partir d'une initialisation aléatoire, peuvent apprendre efficacement des opérations arithmétiques comme l'addition, la multiplication et des fonctions élémentaires telles que la racine carrée, en utilisant l'objectif de prédiction du token suivant. Nous montrons d'abord que les données d'entraînement conventionnelles ne sont pas les plus efficaces pour l'apprentissage de l'arithmétique, et que de simples modifications de formatage peuvent considérablement améliorer la précision. Cela conduit à des transitions de phase marquées en fonction de l'échelle des données d'entraînement, qui, dans certains cas, peuvent être expliquées par des liens avec la complétion de matrices de faible rang. En nous appuyant sur des travaux antérieurs, nous entraînons ensuite sur des données de type "chaîne de pensée" incluant les résultats des étapes intermédiaires. Même en l'absence totale de pré-entraînement, cette approche améliore significativement et simultanément la précision, la complexité en échantillons et la vitesse de convergence. Nous étudions également l'interaction entre les données arithmétiques et textuelles pendant l'entraînement, et examinons les effets du prompting en few-shot, du pré-entraînement et de l'échelle du modèle. De plus, nous discutons des défis liés à la généralisation en longueur. Notre travail souligne l'importance de données de haute qualité et instructives, qui prennent en compte les caractéristiques particulières de l'objectif de prédiction du mot suivant, pour susciter rapidement des capacités arithmétiques.
English
Large language models like GPT-4 exhibit emergent capabilities across
general-purpose tasks, such as basic arithmetic, when trained on extensive text
data, even though these tasks are not explicitly encoded by the unsupervised,
next-token prediction objective. This study investigates how small
transformers, trained from random initialization, can efficiently learn
arithmetic operations such as addition, multiplication, and elementary
functions like square root, using the next-token prediction objective. We first
demonstrate that conventional training data is not the most effective for
arithmetic learning, and simple formatting changes can significantly improve
accuracy. This leads to sharp phase transitions as a function of training data
scale, which, in some cases, can be explained through connections to low-rank
matrix completion. Building on prior work, we then train on chain-of-thought
style data that includes intermediate step results. Even in the complete
absence of pretraining, this approach significantly and simultaneously improves
accuracy, sample complexity, and convergence speed. We also study the interplay
between arithmetic and text data during training and examine the effects of
few-shot prompting, pretraining, and model scale. Additionally, we discuss
length generalization challenges. Our work highlights the importance of
high-quality, instructive data that considers the particular characteristics of
the next-word prediction objective for rapidly eliciting arithmetic
capabilities.