Обучение на уровне патчей для больших языковых моделей

Аннотация

Поскольку большие языковые модели (Large Language Models, LLMs) достигают значительного прогресса в понимании и генерации языка, их эффективность обучения стала критической проблемой. Традиционно LLM обучаются предсказывать следующий токен в последовательности. Несмотря на успех обучения на уровне токенов, это страдает от значительных вычислительных затрат из-за необходимости обработки большого количества токенов. Для устранения этой проблемы в данной статье предлагается обучение на уровне патчей для LLM, которое сокращает длину последовательности, сжимая несколько токенов в один патч. Во время обучения на уровне патчей мы подаем языковой модели более короткие последовательности патчей и обучаем ее предсказывать следующий патч, обрабатывая большую часть обучающих данных при значительно сниженных вычислительных затратах. Затем модель продолжает обучение на уровне токенов на оставшихся обучающих данных для соответствия режиму вывода. Эксперименты на различных моделях (от 370 млн до 2,7 млрд параметров) показывают, что обучение на уровне патчей может снизить общие вычислительные затраты в 0,5 раза, не ухудшая производительность модели по сравнению с обучением на уровне токенов. Исходный код: https://github.com/shaochenze/PatchTrain.

English

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5times, without compromising the model performance compared to token-level training. Source code: https://github.com/shaochenze/PatchTrain.

Обучение на уровне патчей для больших языковых моделей

Patch-Level Training for Large Language Models

Аннотация

Support