Addestramento a Livello di Patch per Modelli Linguistici di Grande Dimensione

Abstract

Man mano che i Large Language Models (LLM) raggiungono progressi significativi nella comprensione e generazione del linguaggio, l'efficienza del loro addestramento è diventata una preoccupazione critica. Tradizionalmente, i LLM vengono addestrati a prevedere il token successivo in una sequenza. Nonostante il successo dell'addestramento a livello di token, questo approccio comporta costi computazionali considerevoli a causa della necessità di elaborare un numero esteso di token. Per mitigare questo problema, questo articolo introduce l'addestramento a livello di patch per i LLM, che riduce la lunghezza della sequenza comprimendo più token in una singola patch. Durante l'addestramento a livello di patch, forniamo al modello linguistico sequenze più brevi di patch e lo addestriamo a prevedere la patch successiva, elaborando così la maggior parte dei dati di addestramento con un costo computazionale significativamente ridotto. Successivamente, il modello continua l'addestramento a livello di token sui restanti dati di addestramento per allinearsi alla modalità di inferenza. Esperimenti condotti su una gamma diversificata di modelli (da 370M a 2.7B parametri) dimostrano che l'addestramento a livello di patch può ridurre i costi computazionali complessivi a 0.5 volte, senza compromettere le prestazioni del modello rispetto all'addestramento a livello di token. Codice sorgente: https://github.com/shaochenze/PatchTrain.

English

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5times, without compromising the model performance compared to token-level training. Source code: https://github.com/shaochenze/PatchTrain.

Addestramento a Livello di Patch per Modelli Linguistici di Grande Dimensione

Patch-Level Training for Large Language Models

Abstract

Support