Domare i LLM attraverso la scalatura dei tassi di apprendimento con il raggruppamento dei gradienti
Taming LLMs by Scaling Learning Rates with Gradient Grouping
June 1, 2025
Autori: Siyuan Li, Juanxi Tian, Zedong Wang, Xin Jin, Zicheng Liu, Wentao Zhang, Dan Xu
cs.AI
Abstract
L'addestramento di grandi modelli linguistici (LLM) presenta sfide dovute alla loro scala massiccia e alle architetture eterogenee. Sebbene ottimizzatori adattivi come AdamW aiutino a gestire le variazioni del gradiente, essi continuano a lottare con una stima efficiente ed efficace del tasso di apprendimento a livello di parametro, portando a instabilità durante l'addestramento, convergenza lenta e scarsa compatibilità con tecniche di fine-tuning efficiente in termini di parametri (PEFT). Questo lavoro introduce Scaling with Gradient Grouping (SGG), un wrapper per ottimizzatori che migliora la stima del tasso di apprendimento adattivo attraverso il raggruppamento dinamico e il ridimensionamento specifico per gruppo. SGG prima raggruppa le statistiche del gradiente in ciascun livello in cluster e poi applica un ridimensionamento specifico per cluster per calibrare i tassi di apprendimento per ciascun parametro, imponendo così vincoli collettivi a livello di gruppo mentre mantiene un adattamento preciso per parametro. Esperimenti su vari benchmark (M)LLM dimostrano che SGG si integra perfettamente con gli ottimizzatori esistenti, offrendo guadagni consistenti e una convergenza più rapida rispetto ai metodi di base, con diverse dimensioni del modello. La sua stabilità su diverse dimensioni del batch e tassi di apprendimento stabilisce SGG come una scelta robusta per l'ottimizzazione di LLM.
English
Training large language models (LLMs) poses challenges due to their massive
scale and heterogeneous architectures. While adaptive optimizers like AdamW
help address gradient variations, they still struggle with efficient and
effective parameter-wise learning rate estimation, resulting in training
instability, slow convergence, and poor compatibility with parameter-efficient
fine-tuning (PEFT) techniques. This work introduces Scaling with Gradient
Grouping (SGG), an optimizer wrapper that improves adaptive learning rate
estimation by dynamic grouping and group-specific scaling. SGG first groups
gradient statistics in each layer into clusters and then applies
cluster-specific scaling to calibrate learning rates for each parameter, thus
imposing collective group-wise constraints while maintaining precise
per-parameter adaptation. Experiments on diverse (M)LLM benchmarks show that
SGG integrates seamlessly with existing optimizers, and offers consistent gains
and faster convergence over baselines, with various model sizes. Its stability
across varying batch sizes and learning rates establishes SGG as a robust
choice for LLM optimization.