Enseñando Aritmética a Pequeños Transformadores

Resumen

Los grandes modelos de lenguaje como GPT-4 exhiben capacidades emergentes en tareas de propósito general, como la aritmética básica, cuando se entrenan con extensos datos de texto, a pesar de que estas tareas no están explícitamente codificadas en el objetivo de predicción de siguiente token no supervisado. Este estudio investiga cómo pequeños transformadores, entrenados desde una inicialización aleatoria, pueden aprender eficientemente operaciones aritméticas como la suma, la multiplicación y funciones elementales como la raíz cuadrada, utilizando el objetivo de predicción de siguiente token. Primero demostramos que los datos de entrenamiento convencionales no son los más efectivos para el aprendizaje aritmético, y que simples cambios en el formato pueden mejorar significativamente la precisión. Esto conduce a transiciones de fase abruptas en función de la escala de los datos de entrenamiento, las cuales, en algunos casos, pueden explicarse a través de conexiones con la completación de matrices de bajo rango. Basándonos en trabajos previos, luego entrenamos con datos en estilo cadena de pensamiento que incluyen resultados de pasos intermedios. Incluso en ausencia total de preentrenamiento, este enfoque mejora significativa y simultáneamente la precisión, la complejidad muestral y la velocidad de convergencia. También estudiamos la interacción entre datos aritméticos y de texto durante el entrenamiento y examinamos los efectos del prompting en pocos ejemplos, el preentrenamiento y la escala del modelo. Además, discutimos los desafíos de generalización en longitud. Nuestro trabajo destaca la importancia de datos de alta calidad e instructivos que consideren las características particulares del objetivo de predicción de siguiente palabra para elicitar rápidamente capacidades aritméticas.

English

Large language models like GPT-4 exhibit emergent capabilities across general-purpose tasks, such as basic arithmetic, when trained on extensive text data, even though these tasks are not explicitly encoded by the unsupervised, next-token prediction objective. This study investigates how small transformers, trained from random initialization, can efficiently learn arithmetic operations such as addition, multiplication, and elementary functions like square root, using the next-token prediction objective. We first demonstrate that conventional training data is not the most effective for arithmetic learning, and simple formatting changes can significantly improve accuracy. This leads to sharp phase transitions as a function of training data scale, which, in some cases, can be explained through connections to low-rank matrix completion. Building on prior work, we then train on chain-of-thought style data that includes intermediate step results. Even in the complete absence of pretraining, this approach significantly and simultaneously improves accuracy, sample complexity, and convergence speed. We also study the interplay between arithmetic and text data during training and examine the effects of few-shot prompting, pretraining, and model scale. Additionally, we discuss length generalization challenges. Our work highlights the importance of high-quality, instructive data that considers the particular characteristics of the next-word prediction objective for rapidly eliciting arithmetic capabilities.

Enseñando Aritmética a Pequeños Transformadores

Teaching Arithmetic to Small Transformers

Resumen

Support