Patch-Level Training voor Grote Taalmodellen

Samenvatting

Naarmate grote taalmmodellen (LLMs) opmerkelijke vooruitgang boeken in taalbegrip en -generatie, is hun trainings efficiëntie een kritieke zorg geworden. Traditioneel worden LLMs getraind om het volgende token in een reeks te voorspellen. Ondanks het succes van training op tokenniveau, lijdt deze aanzienlijke rekenkosten door de noodzaak om een uitgebreid aantal tokens te verwerken. Om dit probleem te verlichten, introduceert dit artikel training op patchniveau voor LLMs, waarbij de sequentielengte wordt verminderd door meerdere tokens in een enkel patch samen te persen. Tijdens training op patchniveau voeden we het taalmodel kortere sequenties van patches en trainen we het om het volgende patch te voorspellen, waardoor het grootste deel van de trainingsgegevens tegen aanzienlijk lagere rekenkosten wordt verwerkt. Vervolgens gaat het model door met training op tokenniveau op de resterende trainingsgegevens om af te stemmen op de inferentiemodus. Experimenten op een diverse reeks modellen (370M-2.7B parameters) tonen aan dat training op patchniveau de totale rekenkosten kan verminderen tot 0.5 keer, zonder in te boeten aan modelprestaties vergeleken met training op tokenniveau. Broncode: https://github.com/shaochenze/PatchTrain.

English

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5times, without compromising the model performance compared to token-level training. Source code: https://github.com/shaochenze/PatchTrain.

Patch-Level Training voor Grote Taalmodellen

Patch-Level Training for Large Language Models

Samenvatting

Support