ChatPaper.aiChatPaper

Domando los LLMs mediante la Escalación de Tasas de Aprendizaje con Agrupación de Gradientes

Taming LLMs by Scaling Learning Rates with Gradient Grouping

June 1, 2025
Autores: Siyuan Li, Juanxi Tian, Zedong Wang, Xin Jin, Zicheng Liu, Wentao Zhang, Dan Xu
cs.AI

Resumen

El entrenamiento de modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) presenta desafíos debido a su escala masiva y arquitecturas heterogéneas. Aunque optimizadores adaptativos como AdamW ayudan a abordar las variaciones en los gradientes, aún luchan con la estimación eficiente y efectiva de las tasas de aprendizaje por parámetro, lo que resulta en inestabilidad durante el entrenamiento, convergencia lenta y poca compatibilidad con técnicas de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés). Este trabajo introduce Scaling with Gradient Grouping (SGG), un envoltorio de optimización que mejora la estimación de tasas de aprendizaje adaptativas mediante agrupación dinámica y escalado específico por grupo. SGG primero agrupa las estadísticas de gradiente en cada capa en clústeres y luego aplica un escalado específico por clúster para calibrar las tasas de aprendizaje para cada parámetro, imponiendo así restricciones colectivas a nivel de grupo mientras mantiene una adaptación precisa por parámetro. Los experimentos en diversos puntos de referencia de (M)LLM muestran que SGG se integra perfectamente con optimizadores existentes y ofrece ganancias consistentes y una convergencia más rápida en comparación con las líneas base, independientemente del tamaño del modelo. Su estabilidad frente a diferentes tamaños de lotes y tasas de aprendizaje establece a SGG como una opción robusta para la optimización de LLMs.
English
Training large language models (LLMs) poses challenges due to their massive scale and heterogeneous architectures. While adaptive optimizers like AdamW help address gradient variations, they still struggle with efficient and effective parameter-wise learning rate estimation, resulting in training instability, slow convergence, and poor compatibility with parameter-efficient fine-tuning (PEFT) techniques. This work introduces Scaling with Gradient Grouping (SGG), an optimizer wrapper that improves adaptive learning rate estimation by dynamic grouping and group-specific scaling. SGG first groups gradient statistics in each layer into clusters and then applies cluster-specific scaling to calibrate learning rates for each parameter, thus imposing collective group-wise constraints while maintaining precise per-parameter adaptation. Experiments on diverse (M)LLM benchmarks show that SGG integrates seamlessly with existing optimizers, and offers consistent gains and faster convergence over baselines, with various model sizes. Its stability across varying batch sizes and learning rates establishes SGG as a robust choice for LLM optimization.
PDF384June 3, 2025