MSign: Оптимизатор для предотвращения нестабильности обучения больших языковых моделей посредством восстановления стабильного ранга

Аннотация

Нестабильность обучения остается критической проблемой при предварительном обучении больших языковых моделей (LLM), часто проявляясь в виде внезапных взрывов градиента, которые приводят к значительным потерям вычислительных ресурсов. Мы исследуем сбои обучения в модели NanoGPT с 5 миллионами параметров, масштабированной с помощью μP, и выявляем два ключевых явления, предшествующих коллапсу: (1) быстрое снижение стабильного ранга весовой матрицы (отношения квадрата нормы Фробениуса к квадрату спектральной нормы) и (2) усиление согласованности между якобианами соседних слоев. Мы теоретически доказываем, что эти два условия совместно вызывают экспоненциальный рост нормы градиента с увеличением глубины сети. Чтобы устранить этот механизм нестабильности, мы предлагаем MSign — новый оптимизатор, который периодически применяет матричную знаковую операцию для восстановления стабильного ранга. Эксперименты на моделях от 5M до 3B параметров демонстрируют, что MSign эффективно предотвращает сбои обучения при вычислительных накладных расходах менее 7,0%.

English

Training instability remains a critical challenge in large language model (LLM) pretraining, often manifesting as sudden gradient explosions that waste significant computational resources. We study training failures in a 5M-parameter NanoGPT model scaled via μP, identifying two key phenomena preceding collapse: (1) rapid decline in weight matrix stable rank (ratio of squared Frobenius norm to squared spectral norm), and (2) increasing alignment between adjacent layer Jacobians. We prove theoretically that these two conditions jointly cause exponential gradient norm growth with network depth. To break this instability mechanism, we propose MSign, a new optimizer that periodically applies matrix sign operations to restore stable rank. Experiments on models from 5M to 3B parameters demonstrate that MSign effectively prevents training failures with a computational overhead of less than 7.0%.

MSign: Оптимизатор для предотвращения нестабильности обучения больших языковых моделей посредством восстановления стабильного ранга

MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

Аннотация

Support