SPAM: Spike-Bewuste Adam met Momentum Reset voor Stabiele LLM Training

Samenvatting

Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties getoond bij diverse taken, maar hun training blijft zeer resource-intensief en vatbaar voor kritieke uitdagingen zoals trainingsinstabiliteit. Een belangrijke bron van deze instabiliteit komt voort uit gradient- en verliespieken, die het leerproces verstoren en vaak leiden tot kostbare interventies zoals het herstellen van checkpoints en het opnieuw starten van experimenten, waardoor inefficiënties verder worden versterkt. Dit artikel presenteert een uitgebreid onderzoek naar gradientpieken die worden waargenomen tijdens de training van LLM's, waarbij hun voorkomen wordt onthuld in meerdere architecturen en datasets. Onze analyse toont aan dat deze pieken tot wel 1000 keer groter kunnen zijn dan typische gradients, waardoor de prestaties van het model aanzienlijk verslechteren. Om dit probleem aan te pakken, stellen we Spike-Aware Adam met Momentum Reset SPAM voor, een nieuw optimizer ontworpen om gradientpieken tegen te gaan door middel van momentumreset en spike-aware gradientclipping. Uitgebreide experimenten, inclusief zowel pre-training als fine-tuning, tonen aan dat SPAM consequent Adam en zijn varianten overtreft bij verschillende taken, waaronder (1) LLM pre-training van 60M tot 1B, (2) 4-bit LLM pre-training, (3) reinforcement learning, en (4) Time Series Forecasting. Daarnaast maakt SPAM geheugenefficiënte training mogelijk door het inschakelen van schaarse momentum, waarbij slechts een subset van momentumtermen wordt onderhouden en bijgewerkt. Bij het werken onder geheugenbeperkingen presteert SPAM beter dan geavanceerde geheugenefficiënte optimizers zoals GaLore en Adam-Mini. Ons werk benadrukt het belang van het verminderen van gradientpieken in LLM-training en introduceert een effectieve optimalisatiestrategie die zowel de trainingsstabiliteit als de resource-efficiëntie op schaal verbetert. De code is beschikbaar op https://github.com/TianjinYellow/SPAM-Optimizer.git

English

Large Language Models (LLMs) have demonstrated exceptional performance across diverse tasks, yet their training remains highly resource-intensive and susceptible to critical challenges such as training instability. A predominant source of this instability stems from gradient and loss spikes, which disrupt the learning process, often leading to costly interventions like checkpoint recovery and experiment restarts, further amplifying inefficiencies. This paper presents a comprehensive investigation into gradient spikes observed during LLM training, revealing their prevalence across multiple architectures and datasets. Our analysis shows that these spikes can be up to 1000times larger than typical gradients, substantially deteriorating model performance. To address this issue, we propose Spike-Aware Adam with Momentum Reset SPAM, a novel optimizer designed to counteract gradient spikes through momentum reset and spike-aware gradient clipping. Extensive experiments, including both pre-training and fine-tuning, demonstrate that SPAM consistently surpasses Adam and its variants across various tasks, including (1) LLM pre-training from 60M to 1B, (2) 4-bit LLM pre-training,(3) reinforcement learning, and (4) Time Series Forecasting. Additionally, SPAM facilitates memory-efficient training by enabling sparse momentum, where only a subset of momentum terms are maintained and updated. When operating under memory constraints, SPAM outperforms state-of-the-art memory-efficient optimizers such as GaLore and Adam-Mini. Our work underscores the importance of mitigating gradient spikes in LLM training and introduces an effective optimization strategy that enhances both training stability and resource efficiency at scale. Code is available at https://github.com/TianjinYellow/SPAM-Optimizer.git

SPAM: Spike-Bewuste Adam met Momentum Reset voor Stabiele LLM Training

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

Samenvatting

Summary

Support

Support