No Todo Está Perdido: Recuperación de LLM sin Puntos de Control

Resumen

El entrenamiento de LLMs (Modelos de Lenguaje de Gran Escala) en nodos de computación descentralizados y de baja potencia, por ejemplo, múltiples instancias locales, reduce el costo de entrenamiento y permite la democratización del modelo. El desafío inevitable en este contexto es la rotación de nodos debido a fallos y las políticas de planificación del operador, lo que conduce a la pérdida de una etapa, es decir, una parte del modelo. Los enfoques convencionales para recuperarse de fallos son el uso de puntos de control, donde periódicamente se envía una copia completa del modelo a un almacenamiento adicional, o la computación redundante. Estos enfoques generan un sobrecosto significativo de comunicación y/o computación, incluso en casos sin fallos, y escalan pobremente en entornos con modelos grandes. En este artículo, proponemos CheckFree, un método de recuperación eficiente en el que una etapa fallida se sustituye por un promedio ponderado de las etapas vecinas más cercanas. A diferencia del estado del arte, CheckFree no requiere computación ni almacenamiento adicional. Sin embargo, debido a la naturaleza del promedio de etapas vecinas, solo puede recuperar fallos en etapas intermedias. Extendemos nuestro método a CheckFree+ con ejecución de tubería fuera de orden para tolerar fallos en las primeras y últimas etapas. Gracias a la tubería fuera de orden, el comportamiento de esas etapas es imitado por sus vecinas, lo que permite a CheckFree+ recuperarlas simplemente copiando los pesos del vecino inmediato. Para poder recuperar las capas de (des)incrustación, CheckFree+ copia esas capas en las etapas vecinas, lo que requiere un sobrecosto de almacenamiento relativamente pequeño. Evaluamos exhaustivamente nuestro método en modelos LLaMa con tamaños que van desde 124M hasta 1.5B, con frecuencias de fallos variables. En el caso de tasas de fallos bajas y medias (5-10%), CheckFree y CheckFree+ superan tanto a los puntos de control como a la computación redundante en términos de convergencia en tiempo real en más de un 12%. Ambas propuestas pueden ejecutarse a través de nuestro código disponible en: https://github.com/gensyn-ai/CheckFree.

English

Training LLMs on decentralized and wimpy computation nodes, e.g., multiple on-spot instances, lowers the training cost and enables model democratization. The inevitable challenge here is the churn of nodes due to failures and the operator's scheduling policies, leading to losing a stage - a part of the model. The conventional approaches to recover from failures are to either use checkpointing, where periodically a copy of the entire model is sent to an additional storage, or redundant computation. These approaches yield significant communication and/or computation overhead even in non-failure cases and scale poorly in settings with large models. In this paper, we propose, CheckFree, an efficient recovery method where a failing stage is substituted by a weighted average of the closest neighboring stages. In contrast to the state of the art, CheckFree requires no additional computation or storage. However, because of the nature of averaging neighbouring stages, it can only recover failures of intermediate stages. We further extend our method to CheckFree+ with out-of-order pipeline execution to tolerate crashes of the first and last stages. Thanks to out-of-order pipelining, behaviour of those stages is mimicked by their neighboring ones, which allows CheckFree+ to recover them by simply copying the weights from the immediate neighbour. To be able to recover the (de)embedding layers, CheckFree+ copies those layers to the neighboring stages, which requires relatively small storage overhead. We extensively evaluate our method on LLaMa models of model sizes from 124M to 1.5B with varying failure frequencies. In the case of low and medium failure rates (5-10%), CheckFree and CheckFree+ outperform both checkpointing and redundant computation in terms of convergence in wall-clock time by over 12%. Both of our proposals can be run via our code available at: https://github.com/gensyn-ai/CheckFree.

No Todo Está Perdido: Recuperación de LLM sin Puntos de Control

All is Not Lost: LLM Recovery without Checkpoints

Resumen

Support