ZClip: Adaptieve Spike-mitigatie voor LLM Pre-training
ZClip: Adaptive Spike Mitigation for LLM Pre-Training
April 3, 2025
Auteurs: Abhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra
cs.AI
Samenvatting
Het trainen van grote taalmmodellen (LLMs) brengt tal van uitdagingen met zich mee, waaronder gradientinstabiliteit en verliespieken. Deze fenomenen kunnen leiden tot catastrofale divergentie, wat kostbare herstelpunten en het overslaan van databatches vereist. Traditionele gradientclippingtechnieken, zoals constante of normgebaseerde methoden, slagen er niet in deze problemen effectief aan te pakken vanwege hun afhankelijkheid van vaste drempels of heuristieken, wat resulteert in inefficiënt leren en frequente handmatige interventie vereist. In dit werk stellen we ZClip voor, een adaptief gradientclippingalgoritme dat dynamisch de clippingdrempel aanpast op basis van statistische eigenschappen van gradientnormen over tijd. In tegenstelling tot eerdere reactieve strategieën, past ZClip proactief aan aan de trainingsdynamiek zonder voorafgaande aannames te doen over de schaal en de temporele evolutie van gradientnormen. In de kern maakt het gebruik van z-score-gebaseerde anomaliedetectie om grote gradientpieken te identificeren en te mitigeren, waardoor schadelijke verliespieken worden voorkomen zonder de convergentie anderszins te verstoren. Onze code is beschikbaar op: https://github.com/bluorion-com/ZClip.
English
Training large language models (LLMs) presents numerous challenges, including
gradient instability and loss spikes. These phenomena can lead to catastrophic
divergence, requiring costly checkpoint restoration and data batch skipping.
Traditional gradient clipping techniques, such as constant or norm-based
methods, fail to address these issues effectively due to their reliance on
fixed thresholds or heuristics, leading to inefficient learning and requiring
frequent manual intervention. In this work, we propose ZClip, an adaptive
gradient clipping algorithm that dynamically adjusts the clipping threshold
based on statistical properties of gradient norms over time. Unlike prior
reactive strategies, ZClip proactively adapts to training dynamics without
making any prior assumptions on the scale and the temporal evolution of
gradient norms. At its core, it leverages z-score-based anomaly detection to
identify and mitigate large gradient spikes, preventing malignant loss spikes
while not interfering with convergence otherwise. Our code is available at:
https://github.com/bluorion-com/ZClip.Summary
AI-Generated Summary