Domare i LLM attraverso la scalatura dei tassi di apprendimento con il raggruppamento dei gradienti

Abstract

L'addestramento di grandi modelli linguistici (LLM) presenta sfide dovute alla loro scala massiccia e alle architetture eterogenee. Sebbene ottimizzatori adattivi come AdamW aiutino a gestire le variazioni del gradiente, essi continuano a lottare con una stima efficiente ed efficace del tasso di apprendimento a livello di parametro, portando a instabilità durante l'addestramento, convergenza lenta e scarsa compatibilità con tecniche di fine-tuning efficiente in termini di parametri (PEFT). Questo lavoro introduce Scaling with Gradient Grouping (SGG), un wrapper per ottimizzatori che migliora la stima del tasso di apprendimento adattivo attraverso il raggruppamento dinamico e il ridimensionamento specifico per gruppo. SGG prima raggruppa le statistiche del gradiente in ciascun livello in cluster e poi applica un ridimensionamento specifico per cluster per calibrare i tassi di apprendimento per ciascun parametro, imponendo così vincoli collettivi a livello di gruppo mentre mantiene un adattamento preciso per parametro. Esperimenti su vari benchmark (M)LLM dimostrano che SGG si integra perfettamente con gli ottimizzatori esistenti, offrendo guadagni consistenti e una convergenza più rapida rispetto ai metodi di base, con diverse dimensioni del modello. La sua stabilità su diverse dimensioni del batch e tassi di apprendimento stabilisce SGG come una scelta robusta per l'ottimizzazione di LLM.

English

Training large language models (LLMs) poses challenges due to their massive scale and heterogeneous architectures. While adaptive optimizers like AdamW help address gradient variations, they still struggle with efficient and effective parameter-wise learning rate estimation, resulting in training instability, slow convergence, and poor compatibility with parameter-efficient fine-tuning (PEFT) techniques. This work introduces Scaling with Gradient Grouping (SGG), an optimizer wrapper that improves adaptive learning rate estimation by dynamic grouping and group-specific scaling. SGG first groups gradient statistics in each layer into clusters and then applies cluster-specific scaling to calibrate learning rates for each parameter, thus imposing collective group-wise constraints while maintaining precise per-parameter adaptation. Experiments on diverse (M)LLM benchmarks show that SGG integrates seamlessly with existing optimizers, and offers consistent gains and faster convergence over baselines, with various model sizes. Its stability across varying batch sizes and learning rates establishes SGG as a robust choice for LLM optimization.

Domare i LLM attraverso la scalatura dei tassi di apprendimento con il raggruppamento dei gradienti

Taming LLMs by Scaling Learning Rates with Gradient Grouping

Abstract

Support