Arithmetikunterricht für kleine Transformer
Teaching Arithmetic to Small Transformers
July 7, 2023
Autoren: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos
cs.AI
Zusammenfassung
Große Sprachmodelle wie GPT-4 zeigen emergente Fähigkeiten bei allgemeinen Aufgaben, wie etwa grundlegender Arithmetik, wenn sie auf umfangreiche Textdaten trainiert werden, obwohl diese Aufgaben nicht explizit durch das unüberwachte, nächste-Token-Vorhersageziel kodiert sind. Diese Studie untersucht, wie kleine Transformer-Modelle, die zufällig initialisiert trainiert werden, effizient arithmetische Operationen wie Addition, Multiplikation und elementare Funktionen wie Quadratwurzel mithilfe des nächste-Token-Vorhersageziels erlernen können. Wir zeigen zunächst, dass konventionelle Trainingsdaten nicht am effektivsten für das Erlernen von Arithmetik sind und dass einfache Formatierungsänderungen die Genauigkeit erheblich verbessern können. Dies führt zu scharfen Phasenübergängen in Abhängigkeit vom Umfang der Trainingsdaten, die in einigen Fällen durch Verbindungen zur Niedrigrang-Matrix-Vervollständigung erklärt werden können. Aufbauend auf früheren Arbeiten trainieren wir dann mit Daten im Chain-of-Thought-Stil, die Zwischenergebnisse enthalten. Selbst bei völligem Fehlen von Vortraining verbessert dieser Ansatz die Genauigkeit, die Stichprobenkomplexität und die Konvergenzgeschwindigkeit signifikant und gleichzeitig. Wir untersuchen auch das Zusammenspiel zwischen arithmetischen und Textdaten während des Trainings und betrachten die Auswirkungen von Few-Shot-Prompting, Vortraining und der Modellgröße. Zusätzlich diskutieren wir Herausforderungen bei der Längengeneralisierung. Unsere Arbeit unterstreicht die Bedeutung von hochwertigen, instruktiven Daten, die die besonderen Eigenschaften des nächste-Wort-Vorhersageziels berücksichtigen, um arithmetische Fähigkeiten schnell zu fördern.
English
Large language models like GPT-4 exhibit emergent capabilities across
general-purpose tasks, such as basic arithmetic, when trained on extensive text
data, even though these tasks are not explicitly encoded by the unsupervised,
next-token prediction objective. This study investigates how small
transformers, trained from random initialization, can efficiently learn
arithmetic operations such as addition, multiplication, and elementary
functions like square root, using the next-token prediction objective. We first
demonstrate that conventional training data is not the most effective for
arithmetic learning, and simple formatting changes can significantly improve
accuracy. This leads to sharp phase transitions as a function of training data
scale, which, in some cases, can be explained through connections to low-rank
matrix completion. Building on prior work, we then train on chain-of-thought
style data that includes intermediate step results. Even in the complete
absence of pretraining, this approach significantly and simultaneously improves
accuracy, sample complexity, and convergence speed. We also study the interplay
between arithmetic and text data during training and examine the effects of
few-shot prompting, pretraining, and model scale. Additionally, we discuss
length generalization challenges. Our work highlights the importance of
high-quality, instructive data that considers the particular characteristics of
the next-word prediction objective for rapidly eliciting arithmetic
capabilities.