ChatPaper.aiChatPaper

모든 것이 사라지지 않는다: 체크포인트 없이도 가능한 LLM 복구

All is Not Lost: LLM Recovery without Checkpoints

June 18, 2025
저자: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI

초록

분산적이고 저성능의 컴퓨팅 노드(예: 다수의 현장 인스턴스)에서 대규모 언어 모델(LLM)을 학습시키는 것은 학습 비용을 낮추고 모델의 민주화를 가능하게 한다. 그러나 이러한 환경에서는 노드의 장애와 운영자의 스케줄링 정책으로 인해 노드의 이탈이 불가피하며, 이로 인해 모델의 일부인 스테이지가 손실되는 문제가 발생한다. 기존의 장애 복구 방법은 주기적으로 전체 모델의 복사본을 추가 저장소로 전송하는 체크포인팅 또는 중복 계산을 사용하는 것이다. 이러한 방법은 장애가 발생하지 않은 경우에도 상당한 통신 및/또는 계산 오버헤드를 유발하며, 대규모 모델 환경에서는 확장성이 떨어진다. 본 논문에서는 장애가 발생한 스테이지를 가장 가까운 이웃 스테이지들의 가중 평균으로 대체하는 효율적인 복구 방법인 CheckFree를 제안한다. 최신 기술과 달리, CheckFree는 추가적인 계산이나 저장소를 필요로 하지 않는다. 그러나 이웃 스테이지들의 평균화 특성상 중간 스테이지의 장애만 복구할 수 있다는 한계가 있다. 이를 보완하기 위해, CheckFree+를 제안하여 순서가 없는 파이프라인 실행을 통해 첫 번째와 마지막 스테이지의 장애도 복구할 수 있도록 확장하였다. 순서가 없는 파이프라이닝 덕분에, 이러한 스테이지들의 동작은 이웃 스테이지들에 의해 모방되며, CheckFree+는 단순히 가장 가까운 이웃 스테이지의 가중치를 복사함으로써 이를 복구할 수 있다. (디)임베딩 레이어를 복구하기 위해, CheckFree+는 이러한 레이어를 이웃 스테이지들에 복사하며, 이는 상대적으로 작은 저장소 오버헤드를 요구한다. 우리는 124M에서 1.5B까지 다양한 모델 크기의 LLaMa 모델에 대해 다양한 장애 빈도로 제안된 방법을 광범위하게 평가하였다. 낮은 및 중간 장애 빈도(5-10%)의 경우, CheckFree와 CheckFree+는 체크포인팅과 중복 계산보다 월클럭 시간 기준으로 12% 이상 빠른 수렴 성능을 보였다. 우리의 제안은 https://github.com/gensyn-ai/CheckFree에서 제공되는 코드를 통해 실행할 수 있다.
English
Training LLMs on decentralized and wimpy computation nodes, e.g., multiple on-spot instances, lowers the training cost and enables model democratization. The inevitable challenge here is the churn of nodes due to failures and the operator's scheduling policies, leading to losing a stage - a part of the model. The conventional approaches to recover from failures are to either use checkpointing, where periodically a copy of the entire model is sent to an additional storage, or redundant computation. These approaches yield significant communication and/or computation overhead even in non-failure cases and scale poorly in settings with large models. In this paper, we propose, CheckFree, an efficient recovery method where a failing stage is substituted by a weighted average of the closest neighboring stages. In contrast to the state of the art, CheckFree requires no additional computation or storage. However, because of the nature of averaging neighbouring stages, it can only recover failures of intermediate stages. We further extend our method to CheckFree+ with out-of-order pipeline execution to tolerate crashes of the first and last stages. Thanks to out-of-order pipelining, behaviour of those stages is mimicked by their neighboring ones, which allows CheckFree+ to recover them by simply copying the weights from the immediate neighbour. To be able to recover the (de)embedding layers, CheckFree+ copies those layers to the neighboring stages, which requires relatively small storage overhead. We extensively evaluate our method on LLaMa models of model sizes from 124M to 1.5B with varying failure frequencies. In the case of low and medium failure rates (5-10%), CheckFree and CheckFree+ outperform both checkpointing and redundant computation in terms of convergence in wall-clock time by over 12%. Both of our proposals can be run via our code available at: https://github.com/gensyn-ai/CheckFree.
PDF262June 19, 2025