Treinamento em Nível de Patch para Modelos de Linguagem Grandes

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) alcançam progressos notáveis na compreensão e geração de linguagem, a eficiência do treinamento tornou-se uma preocupação crítica. Tradicionalmente, os LLMs são treinados para prever o próximo token em uma sequência. Apesar do sucesso do treinamento ao nível do token, ele sofre custos computacionais consideráveis devido à necessidade de processar um número extenso de tokens. Para mitigar esse problema, este artigo introduz o treinamento ao nível de patch para LLMs, que reduz o comprimento da sequência comprimindo vários tokens em um único patch. Durante o treinamento ao nível de patch, alimentamos o modelo de linguagem com sequências mais curtas de patches e o treinamos para prever o próximo patch, processando assim a maioria dos dados de treinamento a um custo computacional significativamente reduzido. Em seguida, o modelo continua o treinamento ao nível de token nos dados de treinamento restantes para se alinhar com o modo de inferência. Experimentos em uma ampla gama de modelos (370M-2.7B parâmetros) demonstram que o treinamento ao nível de patch pode reduzir os custos computacionais gerais para 0,5 vezes, sem comprometer o desempenho do modelo em comparação com o treinamento ao nível de token. Código-fonte: https://github.com/shaochenze/PatchTrain.

English

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5times, without compromising the model performance compared to token-level training. Source code: https://github.com/shaochenze/PatchTrain.

Treinamento em Nível de Patch para Modelos de Linguagem Grandes

Patch-Level Training for Large Language Models

Resumo

Support