No Todo Está Perdido: Recuperación de LLM sin Puntos de Control
All is Not Lost: LLM Recovery without Checkpoints
June 18, 2025
Autores: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI
Resumen
El entrenamiento de LLMs (Modelos de Lenguaje de Gran Escala) en nodos de computación descentralizados y de baja potencia, por ejemplo, múltiples instancias locales, reduce el costo de entrenamiento y permite la democratización del modelo. El desafío inevitable en este contexto es la rotación de nodos debido a fallos y las políticas de planificación del operador, lo que conduce a la pérdida de una etapa, es decir, una parte del modelo. Los enfoques convencionales para recuperarse de fallos son el uso de puntos de control, donde periódicamente se envía una copia completa del modelo a un almacenamiento adicional, o la computación redundante. Estos enfoques generan un sobrecosto significativo de comunicación y/o computación, incluso en casos sin fallos, y escalan pobremente en entornos con modelos grandes. En este artículo, proponemos CheckFree, un método de recuperación eficiente en el que una etapa fallida se sustituye por un promedio ponderado de las etapas vecinas más cercanas. A diferencia del estado del arte, CheckFree no requiere computación ni almacenamiento adicional. Sin embargo, debido a la naturaleza del promedio de etapas vecinas, solo puede recuperar fallos en etapas intermedias. Extendemos nuestro método a CheckFree+ con ejecución de tubería fuera de orden para tolerar fallos en las primeras y últimas etapas. Gracias a la tubería fuera de orden, el comportamiento de esas etapas es imitado por sus vecinas, lo que permite a CheckFree+ recuperarlas simplemente copiando los pesos del vecino inmediato. Para poder recuperar las capas de (des)incrustación, CheckFree+ copia esas capas en las etapas vecinas, lo que requiere un sobrecosto de almacenamiento relativamente pequeño. Evaluamos exhaustivamente nuestro método en modelos LLaMa con tamaños que van desde 124M hasta 1.5B, con frecuencias de fallos variables. En el caso de tasas de fallos bajas y medias (5-10%), CheckFree y CheckFree+ superan tanto a los puntos de control como a la computación redundante en términos de convergencia en tiempo real en más de un 12%. Ambas propuestas pueden ejecutarse a través de nuestro código disponible en: https://github.com/gensyn-ai/CheckFree.
English
Training LLMs on decentralized and wimpy computation nodes, e.g., multiple
on-spot instances, lowers the training cost and enables model democratization.
The inevitable challenge here is the churn of nodes due to failures and the
operator's scheduling policies, leading to losing a stage - a part of the
model. The conventional approaches to recover from failures are to either use
checkpointing, where periodically a copy of the entire model is sent to an
additional storage, or redundant computation. These approaches yield
significant communication and/or computation overhead even in non-failure cases
and scale poorly in settings with large models. In this paper, we propose,
CheckFree, an efficient recovery method where a failing stage is substituted by
a weighted average of the closest neighboring stages. In contrast to the state
of the art, CheckFree requires no additional computation or storage. However,
because of the nature of averaging neighbouring stages, it can only recover
failures of intermediate stages. We further extend our method to CheckFree+
with out-of-order pipeline execution to tolerate crashes of the first and last
stages. Thanks to out-of-order pipelining, behaviour of those stages is
mimicked by their neighboring ones, which allows CheckFree+ to recover them by
simply copying the weights from the immediate neighbour. To be able to recover
the (de)embedding layers, CheckFree+ copies those layers to the neighboring
stages, which requires relatively small storage overhead. We extensively
evaluate our method on LLaMa models of model sizes from 124M to 1.5B with
varying failure frequencies. In the case of low and medium failure rates
(5-10%), CheckFree and CheckFree+ outperform both checkpointing and redundant
computation in terms of convergence in wall-clock time by over 12%. Both of our
proposals can be run via our code available at:
https://github.com/gensyn-ai/CheckFree.