Patch-Level Training voor Grote Taalmodellen
Patch-Level Training for Large Language Models
July 17, 2024
Auteurs: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Samenvatting
Naarmate grote taalmmodellen (LLMs) opmerkelijke vooruitgang boeken in taalbegrip en -generatie, is hun trainings efficiëntie een kritieke zorg geworden. Traditioneel worden LLMs getraind om het volgende token in een reeks te voorspellen. Ondanks het succes van training op tokenniveau, lijdt deze aanzienlijke rekenkosten door de noodzaak om een uitgebreid aantal tokens te verwerken. Om dit probleem te verlichten, introduceert dit artikel training op patchniveau voor LLMs, waarbij de sequentielengte wordt verminderd door meerdere tokens in een enkel patch samen te persen. Tijdens training op patchniveau voeden we het taalmodel kortere sequenties van patches en trainen we het om het volgende patch te voorspellen, waardoor het grootste deel van de trainingsgegevens tegen aanzienlijk lagere rekenkosten wordt verwerkt. Vervolgens gaat het model door met training op tokenniveau op de resterende trainingsgegevens om af te stemmen op de inferentiemodus. Experimenten op een diverse reeks modellen (370M-2.7B parameters) tonen aan dat training op patchniveau de totale rekenkosten kan verminderen tot 0.5 keer, zonder in te boeten aan modelprestaties vergeleken met training op tokenniveau. Broncode: https://github.com/shaochenze/PatchTrain.
English
As Large Language Models (LLMs) achieve remarkable progress in language
understanding and generation, their training efficiency has become a critical
concern. Traditionally, LLMs are trained to predict the next token in a
sequence. Despite the success of token-level training, it suffers from
considerable computational costs due to the need to process an extensive number
of tokens. To mitigate this issue, this paper introduces patch-level training
for LLMs, which reduces the sequence length by compressing multiple tokens into
a single patch. During patch-level training, we feed the language model shorter
sequences of patches and train it to predict the next patch, thereby processing
the majority of the training data at a significantly reduced computational
cost. Following this, the model continues token-level training on the remaining
training data to align with the inference mode. Experiments on a diverse range
of models (370M-2.7B parameters) demonstrate that patch-level training can
reduce overall computational costs to 0.5times, without compromising the
model performance compared to token-level training. Source code:
https://github.com/shaochenze/PatchTrain.