Entraînement au Niveau des Patchs pour les Modèles de Langue à Grande Échelle

papers.abstract

Alors que les modèles de langage de grande taille (LLMs) réalisent des progrès remarquables dans la compréhension et la génération du langage, leur efficacité d'entraînement est devenue une préoccupation majeure. Traditionnellement, les LLMs sont entraînés à prédire le prochain jeton dans une séquence. Malgré le succès de l'entraînement au niveau des jetons, celui-ci souffre de coûts computationnels considérables en raison de la nécessité de traiter un nombre important de jetons. Pour atténuer ce problème, cet article introduit l'entraînement au niveau des patches pour les LLMs, qui réduit la longueur des séquences en compressant plusieurs jetons en un seul patch. Durant l'entraînement au niveau des patches, nous alimentons le modèle de langage avec des séquences plus courtes de patches et l'entraînons à prédire le prochain patch, traitant ainsi la majorité des données d'entraînement à un coût computationnel significativement réduit. Par la suite, le modèle poursuit l'entraînement au niveau des jetons sur les données d'entraînement restantes pour s'aligner sur le mode d'inférence. Les expériences sur une gamme variée de modèles (370M à 2,7 milliards de paramètres) démontrent que l'entraînement au niveau des patches peut réduire les coûts computationnels globaux à 0,5 fois, sans compromettre les performances du modèle par rapport à l'entraînement au niveau des jetons. Code source : https://github.com/shaochenze/PatchTrain.

English

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5times, without compromising the model performance compared to token-level training. Source code: https://github.com/shaochenze/PatchTrain.

Entraînement au Niveau des Patchs pour les Modèles de Langue à Grande Échelle

Patch-Level Training for Large Language Models

papers.abstract

Support