MSign : Un optimiseur prévenant l'instabilité de l'entraînement des grands modèles de langage par la restauration du rang stable

Résumé

L'instabilité de l'entraînement demeure un défi critique dans le pré-entraînement des grands modèles de langage (LLM), se manifestant souvent par des explosions soudaines du gradient qui gaspillent d'importantes ressources computationnelles. Nous étudions les échecs d'entraînement dans un modèle NanoGPT de 5M de paramètres mis à l'échelle via μP, en identifiant deux phénomènes clés précédant l'effondrement : (1) un déclin rapide du rang stable des matrices de poids (rapport de la norme de Frobenius au carré sur la norme spectrale au carré), et (2) un alignement croissant entre les jacobiens des couches adjacentes. Nous démontrons théoriquement que ces deux conditions provoquent conjointement une croissance exponentielle de la norme du gradient avec la profondeur du réseau. Pour rompre ce mécanisme d'instabilité, nous proposons MSign, un nouvel optimiseur qui applique périodiquement des opérations de signe matriciel pour restaurer le rang stable. Des expériences sur des modèles de 5M à 3B de paramètres démontrent que MSign prévient efficacement les échecs d'entraînement avec une surcharge computationnelle inférieure à 7,0 %.

English

Training instability remains a critical challenge in large language model (LLM) pretraining, often manifesting as sudden gradient explosions that waste significant computational resources. We study training failures in a 5M-parameter NanoGPT model scaled via μP, identifying two key phenomena preceding collapse: (1) rapid decline in weight matrix stable rank (ratio of squared Frobenius norm to squared spectral norm), and (2) increasing alignment between adjacent layer Jacobians. We prove theoretically that these two conditions jointly cause exponential gradient norm growth with network depth. To break this instability mechanism, we propose MSign, a new optimizer that periodically applies matrix sign operations to restore stable rank. Experiments on models from 5M to 3B parameters demonstrate that MSign effectively prevents training failures with a computational overhead of less than 7.0%.

MSign : Un optimiseur prévenant l'instabilité de l'entraînement des grands modèles de langage par la restauration du rang stable

MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

Résumé

Support