Addestramento a Livello di Patch per Modelli Linguistici di Grande Dimensione
Patch-Level Training for Large Language Models
July 17, 2024
Autori: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Abstract
Man mano che i Large Language Models (LLM) raggiungono progressi significativi nella comprensione e generazione del linguaggio, l'efficienza del loro addestramento è diventata una preoccupazione critica. Tradizionalmente, i LLM vengono addestrati a prevedere il token successivo in una sequenza. Nonostante il successo dell'addestramento a livello di token, questo approccio comporta costi computazionali considerevoli a causa della necessità di elaborare un numero esteso di token. Per mitigare questo problema, questo articolo introduce l'addestramento a livello di patch per i LLM, che riduce la lunghezza della sequenza comprimendo più token in una singola patch. Durante l'addestramento a livello di patch, forniamo al modello linguistico sequenze più brevi di patch e lo addestriamo a prevedere la patch successiva, elaborando così la maggior parte dei dati di addestramento con un costo computazionale significativamente ridotto. Successivamente, il modello continua l'addestramento a livello di token sui restanti dati di addestramento per allinearsi alla modalità di inferenza. Esperimenti condotti su una gamma diversificata di modelli (da 370M a 2.7B parametri) dimostrano che l'addestramento a livello di patch può ridurre i costi computazionali complessivi a 0.5 volte, senza compromettere le prestazioni del modello rispetto all'addestramento a livello di token. Codice sorgente: https://github.com/shaochenze/PatchTrain.
English
As Large Language Models (LLMs) achieve remarkable progress in language
understanding and generation, their training efficiency has become a critical
concern. Traditionally, LLMs are trained to predict the next token in a
sequence. Despite the success of token-level training, it suffers from
considerable computational costs due to the need to process an extensive number
of tokens. To mitigate this issue, this paper introduces patch-level training
for LLMs, which reduces the sequence length by compressing multiple tokens into
a single patch. During patch-level training, we feed the language model shorter
sequences of patches and train it to predict the next patch, thereby processing
the majority of the training data at a significantly reduced computational
cost. Following this, the model continues token-level training on the remaining
training data to align with the inference mode. Experiments on a diverse range
of models (370M-2.7B parameters) demonstrate that patch-level training can
reduce overall computational costs to 0.5times, without compromising the
model performance compared to token-level training. Source code:
https://github.com/shaochenze/PatchTrain.