Entrenamiento a Nivel de Parche para Modelos de Lenguaje Grandes
Patch-Level Training for Large Language Models
July 17, 2024
Autores: Chenze Shao, Fandong Meng, Jie Zhou
cs.AI
Resumen
A medida que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un progreso notable en la comprensión y generación de lenguaje, la eficiencia de su entrenamiento se ha convertido en una preocupación crítica. Tradicionalmente, los LLMs se entrenan para predecir el siguiente token en una secuencia. A pesar del éxito del entrenamiento a nivel de token, este método sufre de costos computacionales considerables debido a la necesidad de procesar un gran número de tokens. Para mitigar este problema, este artículo introduce el entrenamiento a nivel de parche para los LLMs, el cual reduce la longitud de la secuencia al comprimir varios tokens en un solo parche. Durante el entrenamiento a nivel de parche, alimentamos al modelo de lenguaje con secuencias más cortas de parches y lo entrenamos para predecir el siguiente parche, procesando así la mayoría de los datos de entrenamiento a un costo computacional significativamente reducido. Posteriormente, el modelo continúa el entrenamiento a nivel de token en los datos restantes para alinearse con el modo de inferencia. Experimentos realizados en una amplia gama de modelos (con parámetros de 370M a 2.7B) demuestran que el entrenamiento a nivel de parche puede reducir los costos computacionales generales a 0.5 veces, sin comprometer el rendimiento del modelo en comparación con el entrenamiento a nivel de token. Código fuente: https://github.com/shaochenze/PatchTrain.
English
As Large Language Models (LLMs) achieve remarkable progress in language
understanding and generation, their training efficiency has become a critical
concern. Traditionally, LLMs are trained to predict the next token in a
sequence. Despite the success of token-level training, it suffers from
considerable computational costs due to the need to process an extensive number
of tokens. To mitigate this issue, this paper introduces patch-level training
for LLMs, which reduces the sequence length by compressing multiple tokens into
a single patch. During patch-level training, we feed the language model shorter
sequences of patches and train it to predict the next patch, thereby processing
the majority of the training data at a significantly reduced computational
cost. Following this, the model continues token-level training on the remaining
training data to align with the inference mode. Experiments on a diverse range
of models (370M-2.7B parameters) demonstrate that patch-level training can
reduce overall computational costs to 0.5times, without compromising the
model performance compared to token-level training. Source code:
https://github.com/shaochenze/PatchTrain.Summary
AI-Generated Summary