Enseñando Aritmética a Pequeños Transformadores
Teaching Arithmetic to Small Transformers
July 7, 2023
Autores: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos
cs.AI
Resumen
Los grandes modelos de lenguaje como GPT-4 exhiben capacidades emergentes en tareas de propósito general, como la aritmética básica, cuando se entrenan con extensos datos de texto, a pesar de que estas tareas no están explícitamente codificadas en el objetivo de predicción de siguiente token no supervisado. Este estudio investiga cómo pequeños transformadores, entrenados desde una inicialización aleatoria, pueden aprender eficientemente operaciones aritméticas como la suma, la multiplicación y funciones elementales como la raíz cuadrada, utilizando el objetivo de predicción de siguiente token. Primero demostramos que los datos de entrenamiento convencionales no son los más efectivos para el aprendizaje aritmético, y que simples cambios en el formato pueden mejorar significativamente la precisión. Esto conduce a transiciones de fase abruptas en función de la escala de los datos de entrenamiento, las cuales, en algunos casos, pueden explicarse a través de conexiones con la completación de matrices de bajo rango. Basándonos en trabajos previos, luego entrenamos con datos en estilo cadena de pensamiento que incluyen resultados de pasos intermedios. Incluso en ausencia total de preentrenamiento, este enfoque mejora significativa y simultáneamente la precisión, la complejidad muestral y la velocidad de convergencia. También estudiamos la interacción entre datos aritméticos y de texto durante el entrenamiento y examinamos los efectos del prompting en pocos ejemplos, el preentrenamiento y la escala del modelo. Además, discutimos los desafíos de generalización en longitud. Nuestro trabajo destaca la importancia de datos de alta calidad e instructivos que consideren las características particulares del objetivo de predicción de siguiente palabra para elicitar rápidamente capacidades aritméticas.
English
Large language models like GPT-4 exhibit emergent capabilities across
general-purpose tasks, such as basic arithmetic, when trained on extensive text
data, even though these tasks are not explicitly encoded by the unsupervised,
next-token prediction objective. This study investigates how small
transformers, trained from random initialization, can efficiently learn
arithmetic operations such as addition, multiplication, and elementary
functions like square root, using the next-token prediction objective. We first
demonstrate that conventional training data is not the most effective for
arithmetic learning, and simple formatting changes can significantly improve
accuracy. This leads to sharp phase transitions as a function of training data
scale, which, in some cases, can be explained through connections to low-rank
matrix completion. Building on prior work, we then train on chain-of-thought
style data that includes intermediate step results. Even in the complete
absence of pretraining, this approach significantly and simultaneously improves
accuracy, sample complexity, and convergence speed. We also study the interplay
between arithmetic and text data during training and examine the effects of
few-shot prompting, pretraining, and model scale. Additionally, we discuss
length generalization challenges. Our work highlights the importance of
high-quality, instructive data that considers the particular characteristics of
the next-word prediction objective for rapidly eliciting arithmetic
capabilities.