Обучение арифметике небольших трансформаторов

Аннотация

Крупные языковые модели, такие как GPT-4, демонстрируют эмерджентные способности в решении задач общего назначения, таких как базовые арифметические операции, при обучении на обширных текстовых данных, даже если эти задачи не явно закодированы в рамках задачи неконтролируемого предсказания следующего токена. В данном исследовании изучается, как небольшие трансформеры, обученные с случайной инициализации, могут эффективно осваивать арифметические операции, такие как сложение, умножение и элементарные функции, например извлечение квадратного корня, используя задачу предсказания следующего токена. Мы сначала показываем, что традиционные обучающие данные не являются наиболее эффективными для изучения арифметики, и простые изменения форматирования могут значительно повысить точность. Это приводит к резким фазовым переходам в зависимости от масштаба обучающих данных, что в некоторых случаях можно объяснить через связи с задачей завершения низкоранговых матриц. Опираясь на предыдущие работы, мы затем обучаем на данных в стиле "цепочки рассуждений", включающих промежуточные результаты шагов. Даже при полном отсутствии предварительного обучения этот подход значительно и одновременно улучшает точность, сложность выборки и скорость сходимости. Мы также изучаем взаимодействие между арифметическими и текстовыми данными в процессе обучения и исследуем влияние немногих примеров (few-shot prompting), предварительного обучения и масштаба модели. Кроме того, мы обсуждаем проблемы обобщения на более длинные последовательности. Наша работа подчеркивает важность высококачественных, обучающих данных, которые учитывают особенности задачи предсказания следующего слова для быстрого развития арифметических способностей.

English

Large language models like GPT-4 exhibit emergent capabilities across general-purpose tasks, such as basic arithmetic, when trained on extensive text data, even though these tasks are not explicitly encoded by the unsupervised, next-token prediction objective. This study investigates how small transformers, trained from random initialization, can efficiently learn arithmetic operations such as addition, multiplication, and elementary functions like square root, using the next-token prediction objective. We first demonstrate that conventional training data is not the most effective for arithmetic learning, and simple formatting changes can significantly improve accuracy. This leads to sharp phase transitions as a function of training data scale, which, in some cases, can be explained through connections to low-rank matrix completion. Building on prior work, we then train on chain-of-thought style data that includes intermediate step results. Even in the complete absence of pretraining, this approach significantly and simultaneously improves accuracy, sample complexity, and convergence speed. We also study the interplay between arithmetic and text data during training and examine the effects of few-shot prompting, pretraining, and model scale. Additionally, we discuss length generalization challenges. Our work highlights the importance of high-quality, instructive data that considers the particular characteristics of the next-word prediction objective for rapidly eliciting arithmetic capabilities.

Обучение арифметике небольших трансформаторов

Teaching Arithmetic to Small Transformers

Аннотация

Support