Обучение на уровне патчей для больших языковых моделей
Patch-Level Training for Large Language Models
July 17, 2024
Авторы: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Аннотация
Поскольку большие языковые модели (Large Language Models, LLMs) достигают значительного прогресса в понимании и генерации языка, их эффективность обучения стала критической проблемой. Традиционно LLM обучаются предсказывать следующий токен в последовательности. Несмотря на успех обучения на уровне токенов, это страдает от значительных вычислительных затрат из-за необходимости обработки большого количества токенов. Для устранения этой проблемы в данной статье предлагается обучение на уровне патчей для LLM, которое сокращает длину последовательности, сжимая несколько токенов в один патч. Во время обучения на уровне патчей мы подаем языковой модели более короткие последовательности патчей и обучаем ее предсказывать следующий патч, обрабатывая большую часть обучающих данных при значительно сниженных вычислительных затратах. Затем модель продолжает обучение на уровне токенов на оставшихся обучающих данных для соответствия режиму вывода. Эксперименты на различных моделях (от 370 млн до 2,7 млрд параметров) показывают, что обучение на уровне патчей может снизить общие вычислительные затраты в 0,5 раза, не ухудшая производительность модели по сравнению с обучением на уровне токенов. Исходный код: https://github.com/shaochenze/PatchTrain.
English
As Large Language Models (LLMs) achieve remarkable progress in language
understanding and generation, their training efficiency has become a critical
concern. Traditionally, LLMs are trained to predict the next token in a
sequence. Despite the success of token-level training, it suffers from
considerable computational costs due to the need to process an extensive number
of tokens. To mitigate this issue, this paper introduces patch-level training
for LLMs, which reduces the sequence length by compressing multiple tokens into
a single patch. During patch-level training, we feed the language model shorter
sequences of patches and train it to predict the next patch, thereby processing
the majority of the training data at a significantly reduced computational
cost. Following this, the model continues token-level training on the remaining
training data to align with the inference mode. Experiments on a diverse range
of models (370M-2.7B parameters) demonstrate that patch-level training can
reduce overall computational costs to 0.5times, without compromising the
model performance compared to token-level training. Source code:
https://github.com/shaochenze/PatchTrain.Summary
AI-Generated Summary