Entrenamiento a Nivel de Parche para Modelos de Lenguaje Grandes

Resumen

A medida que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un progreso notable en la comprensión y generación de lenguaje, la eficiencia de su entrenamiento se ha convertido en una preocupación crítica. Tradicionalmente, los LLMs se entrenan para predecir el siguiente token en una secuencia. A pesar del éxito del entrenamiento a nivel de token, este método sufre de costos computacionales considerables debido a la necesidad de procesar un gran número de tokens. Para mitigar este problema, este artículo introduce el entrenamiento a nivel de parche para los LLMs, el cual reduce la longitud de la secuencia al comprimir varios tokens en un solo parche. Durante el entrenamiento a nivel de parche, alimentamos al modelo de lenguaje con secuencias más cortas de parches y lo entrenamos para predecir el siguiente parche, procesando así la mayoría de los datos de entrenamiento a un costo computacional significativamente reducido. Posteriormente, el modelo continúa el entrenamiento a nivel de token en los datos restantes para alinearse con el modo de inferencia. Experimentos realizados en una amplia gama de modelos (con parámetros de 370M a 2.7B) demuestran que el entrenamiento a nivel de parche puede reducir los costos computacionales generales a 0.5 veces, sin comprometer el rendimiento del modelo en comparación con el entrenamiento a nivel de token. Código fuente: https://github.com/shaochenze/PatchTrain.

English

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5times, without compromising the model performance compared to token-level training. Source code: https://github.com/shaochenze/PatchTrain.

Entrenamiento a Nivel de Parche para Modelos de Lenguaje Grandes

Patch-Level Training for Large Language Models

Resumen

Support