Entraînement au Niveau des Patchs pour les Modèles de Langue à Grande Échelle
Patch-Level Training for Large Language Models
July 17, 2024
Auteurs: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLMs) réalisent des progrès remarquables dans la compréhension et la génération du langage, leur efficacité d'entraînement est devenue une préoccupation majeure. Traditionnellement, les LLMs sont entraînés à prédire le prochain jeton dans une séquence. Malgré le succès de l'entraînement au niveau des jetons, celui-ci souffre de coûts computationnels considérables en raison de la nécessité de traiter un nombre important de jetons. Pour atténuer ce problème, cet article introduit l'entraînement au niveau des patches pour les LLMs, qui réduit la longueur des séquences en compressant plusieurs jetons en un seul patch. Durant l'entraînement au niveau des patches, nous alimentons le modèle de langage avec des séquences plus courtes de patches et l'entraînons à prédire le prochain patch, traitant ainsi la majorité des données d'entraînement à un coût computationnel significativement réduit. Par la suite, le modèle poursuit l'entraînement au niveau des jetons sur les données d'entraînement restantes pour s'aligner sur le mode d'inférence. Les expériences sur une gamme variée de modèles (370M à 2,7 milliards de paramètres) démontrent que l'entraînement au niveau des patches peut réduire les coûts computationnels globaux à 0,5 fois, sans compromettre les performances du modèle par rapport à l'entraînement au niveau des jetons. Code source : https://github.com/shaochenze/PatchTrain.
English
As Large Language Models (LLMs) achieve remarkable progress in language
understanding and generation, their training efficiency has become a critical
concern. Traditionally, LLMs are trained to predict the next token in a
sequence. Despite the success of token-level training, it suffers from
considerable computational costs due to the need to process an extensive number
of tokens. To mitigate this issue, this paper introduces patch-level training
for LLMs, which reduces the sequence length by compressing multiple tokens into
a single patch. During patch-level training, we feed the language model shorter
sequences of patches and train it to predict the next patch, thereby processing
the majority of the training data at a significantly reduced computational
cost. Following this, the model continues token-level training on the remaining
training data to align with the inference mode. Experiments on a diverse range
of models (370M-2.7B parameters) demonstrate that patch-level training can
reduce overall computational costs to 0.5times, without compromising the
model performance compared to token-level training. Source code:
https://github.com/shaochenze/PatchTrain.Summary
AI-Generated Summary