ChatPaper.aiChatPaper

Non Tutto è Perduto: Recupero di LLM senza Checkpoint

All is Not Lost: LLM Recovery without Checkpoints

June 18, 2025
Autori: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI

Abstract

L'addestramento di LLM su nodi di calcolo decentralizzati e poco potenti, ad esempio, più istanze locali, riduce i costi di addestramento e favorisce la democratizzazione del modello. La sfida inevitabile in questo contesto è il turnover dei nodi a causa di guasti e delle politiche di pianificazione dell'operatore, che porta alla perdita di uno stage, ovvero una parte del modello. Gli approcci convenzionali per il recupero dai guasti consistono nell'utilizzo del checkpointing, dove periodicamente una copia dell'intero modello viene inviata a una memoria aggiuntiva, o nel calcolo ridondante. Questi approcci comportano un significativo sovraccarico di comunicazione e/o calcolo anche in assenza di guasti e non scalano bene in contesti con modelli di grandi dimensioni. In questo articolo, proponiamo CheckFree, un metodo di recupero efficiente in cui uno stage guasto viene sostituito da una media ponderata degli stage vicini più prossimi. A differenza dello stato dell'arte, CheckFree non richiede calcoli o archiviazione aggiuntivi. Tuttavia, a causa della natura della media degli stage vicini, può recuperare solo i guasti degli stage intermedi. Estendiamo ulteriormente il nostro metodo a CheckFree+ con l'esecuzione fuori ordine della pipeline per tollerare i crash del primo e dell'ultimo stage. Grazie al pipelining fuori ordine, il comportamento di questi stage viene imitato dai loro vicini, il che consente a CheckFree+ di recuperarli semplicemente copiando i pesi dal vicino immediato. Per poter recuperare i livelli di (de)embedding, CheckFree+ copia questi livelli negli stage vicini, il che richiede un sovraccarico di archiviazione relativamente piccolo. Valutiamo ampiamente il nostro metodo su modelli LLaMa con dimensioni che vanno da 124M a 1.5B con frequenze di guasto variabili. Nel caso di tassi di guasto bassi e medi (5-10%), CheckFree e CheckFree+ superano sia il checkpointing che il calcolo ridondante in termini di convergenza nel tempo reale di oltre il 12%. Entrambe le nostre proposte possono essere eseguite tramite il nostro codice disponibile all'indirizzo: https://github.com/gensyn-ai/CheckFree.
English
Training LLMs on decentralized and wimpy computation nodes, e.g., multiple on-spot instances, lowers the training cost and enables model democratization. The inevitable challenge here is the churn of nodes due to failures and the operator's scheduling policies, leading to losing a stage - a part of the model. The conventional approaches to recover from failures are to either use checkpointing, where periodically a copy of the entire model is sent to an additional storage, or redundant computation. These approaches yield significant communication and/or computation overhead even in non-failure cases and scale poorly in settings with large models. In this paper, we propose, CheckFree, an efficient recovery method where a failing stage is substituted by a weighted average of the closest neighboring stages. In contrast to the state of the art, CheckFree requires no additional computation or storage. However, because of the nature of averaging neighbouring stages, it can only recover failures of intermediate stages. We further extend our method to CheckFree+ with out-of-order pipeline execution to tolerate crashes of the first and last stages. Thanks to out-of-order pipelining, behaviour of those stages is mimicked by their neighboring ones, which allows CheckFree+ to recover them by simply copying the weights from the immediate neighbour. To be able to recover the (de)embedding layers, CheckFree+ copies those layers to the neighboring stages, which requires relatively small storage overhead. We extensively evaluate our method on LLaMa models of model sizes from 124M to 1.5B with varying failure frequencies. In the case of low and medium failure rates (5-10%), CheckFree and CheckFree+ outperform both checkpointing and redundant computation in terms of convergence in wall-clock time by over 12%. Both of our proposals can be run via our code available at: https://github.com/gensyn-ai/CheckFree.
PDF362June 19, 2025