ChatPaper.aiChatPaper

Nem Tudo Está Perdido: Recuperação de LLMs sem Pontos de Verificação

All is Not Lost: LLM Recovery without Checkpoints

June 18, 2025
Autores: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI

Resumo

Treinar LLMs em nós de computação descentralizados e de baixo desempenho, por exemplo, múltiplas instâncias locais, reduz o custo de treinamento e possibilita a democratização do modelo. O desafio inevitável aqui é a rotatividade dos nós devido a falhas e às políticas de escalonamento do operador, levando à perda de um estágio — uma parte do modelo. As abordagens convencionais para recuperação de falhas são o uso de checkpointing, onde periodicamente uma cópia de todo o modelo é enviada para um armazenamento adicional, ou a computação redundante. Essas abordagens geram sobrecarga significativa de comunicação e/ou computação, mesmo em casos sem falhas, e escalam mal em cenários com modelos grandes. Neste artigo, propomos o CheckFree, um método de recuperação eficiente onde um estágio com falha é substituído por uma média ponderada dos estágios vizinhos mais próximos. Em contraste com o estado da arte, o CheckFree não requer computação ou armazenamento adicionais. No entanto, devido à natureza da média dos estágios vizinhos, ele só pode recuperar falhas de estágios intermediários. Estendemos ainda mais nosso método para o CheckFree+ com execução de pipeline fora de ordem para tolerar falhas do primeiro e do último estágios. Graças ao pipelining fora de ordem, o comportamento desses estágios é imitado por seus vizinhos, o que permite que o CheckFree+ os recupere simplesmente copiando os pesos do vizinho imediato. Para recuperar as camadas de (de)embedding, o CheckFree+ copia essas camadas para os estágios vizinhos, o que requer uma sobrecarga de armazenamento relativamente pequena. Avaliamos extensivamente nosso método em modelos LLaMa com tamanhos variando de 124M a 1,5B com diferentes frequências de falhas. No caso de taxas de falha baixas e médias (5-10%), o CheckFree e o CheckFree+ superam tanto o checkpointing quanto a computação redundante em termos de convergência no tempo de execução em mais de 12%. Ambas as nossas propostas podem ser executadas por meio do nosso código disponível em: https://github.com/gensyn-ai/CheckFree.
English
Training LLMs on decentralized and wimpy computation nodes, e.g., multiple on-spot instances, lowers the training cost and enables model democratization. The inevitable challenge here is the churn of nodes due to failures and the operator's scheduling policies, leading to losing a stage - a part of the model. The conventional approaches to recover from failures are to either use checkpointing, where periodically a copy of the entire model is sent to an additional storage, or redundant computation. These approaches yield significant communication and/or computation overhead even in non-failure cases and scale poorly in settings with large models. In this paper, we propose, CheckFree, an efficient recovery method where a failing stage is substituted by a weighted average of the closest neighboring stages. In contrast to the state of the art, CheckFree requires no additional computation or storage. However, because of the nature of averaging neighbouring stages, it can only recover failures of intermediate stages. We further extend our method to CheckFree+ with out-of-order pipeline execution to tolerate crashes of the first and last stages. Thanks to out-of-order pipelining, behaviour of those stages is mimicked by their neighboring ones, which allows CheckFree+ to recover them by simply copying the weights from the immediate neighbour. To be able to recover the (de)embedding layers, CheckFree+ copies those layers to the neighboring stages, which requires relatively small storage overhead. We extensively evaluate our method on LLaMa models of model sizes from 124M to 1.5B with varying failure frequencies. In the case of low and medium failure rates (5-10%), CheckFree and CheckFree+ outperform both checkpointing and redundant computation in terms of convergence in wall-clock time by over 12%. Both of our proposals can be run via our code available at: https://github.com/gensyn-ai/CheckFree.
PDF372June 19, 2025