Обучение арифметике небольших трансформаторов
Teaching Arithmetic to Small Transformers
July 7, 2023
Авторы: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos
cs.AI
Аннотация
Крупные языковые модели, такие как GPT-4, демонстрируют эмерджентные способности в решении задач общего назначения, таких как базовые арифметические операции, при обучении на обширных текстовых данных, даже если эти задачи не явно закодированы в рамках задачи неконтролируемого предсказания следующего токена. В данном исследовании изучается, как небольшие трансформеры, обученные с случайной инициализации, могут эффективно осваивать арифметические операции, такие как сложение, умножение и элементарные функции, например извлечение квадратного корня, используя задачу предсказания следующего токена. Мы сначала показываем, что традиционные обучающие данные не являются наиболее эффективными для изучения арифметики, и простые изменения форматирования могут значительно повысить точность. Это приводит к резким фазовым переходам в зависимости от масштаба обучающих данных, что в некоторых случаях можно объяснить через связи с задачей завершения низкоранговых матриц. Опираясь на предыдущие работы, мы затем обучаем на данных в стиле "цепочки рассуждений", включающих промежуточные результаты шагов. Даже при полном отсутствии предварительного обучения этот подход значительно и одновременно улучшает точность, сложность выборки и скорость сходимости. Мы также изучаем взаимодействие между арифметическими и текстовыми данными в процессе обучения и исследуем влияние немногих примеров (few-shot prompting), предварительного обучения и масштаба модели. Кроме того, мы обсуждаем проблемы обобщения на более длинные последовательности. Наша работа подчеркивает важность высококачественных, обучающих данных, которые учитывают особенности задачи предсказания следующего слова для быстрого развития арифметических способностей.
English
Large language models like GPT-4 exhibit emergent capabilities across
general-purpose tasks, such as basic arithmetic, when trained on extensive text
data, even though these tasks are not explicitly encoded by the unsupervised,
next-token prediction objective. This study investigates how small
transformers, trained from random initialization, can efficiently learn
arithmetic operations such as addition, multiplication, and elementary
functions like square root, using the next-token prediction objective. We first
demonstrate that conventional training data is not the most effective for
arithmetic learning, and simple formatting changes can significantly improve
accuracy. This leads to sharp phase transitions as a function of training data
scale, which, in some cases, can be explained through connections to low-rank
matrix completion. Building on prior work, we then train on chain-of-thought
style data that includes intermediate step results. Even in the complete
absence of pretraining, this approach significantly and simultaneously improves
accuracy, sample complexity, and convergence speed. We also study the interplay
between arithmetic and text data during training and examine the effects of
few-shot prompting, pretraining, and model scale. Additionally, we discuss
length generalization challenges. Our work highlights the importance of
high-quality, instructive data that considers the particular characteristics of
the next-word prediction objective for rapidly eliciting arithmetic
capabilities.