MSign: Een Optimalisatiemethode die Trainingsinstabiliteit in Grote Taalmodellen Voorkomt via Stabiele Rangherstel

Samenvatting

Trainingsinstabiliteit blijft een kritieke uitdaging bij het vooraf trainen van grote taalmmodellen (LLM's), en uit zich vaak als plotselinge gradientexplosies die aanzienlijke rekenkundige middelen verspillen. Wij bestuderen trainingsfouten in een 5M-parameter NanoGPT-model geschaald via μP, en identificeren twee sleutelfenomenen die voorafgaan aan een ineenstorting: (1) een snelle daling van de stabiele rang van de gewichtsmatrix (verhouding tussen de gekwadrateerde Frobeniusnorm en de gekwadrateerde spectrale norm), en (2) een toenemende alignering tussen de Jacobiaanmatrices van aangrenzende lagen. Wij bewijzen theoretisch dat deze twee condities gezamenlijk een exponentiële groei van de gradientnorm met de netwerkdiepte veroorzaken. Om dit instabiliteitsmechanisme te doorbreken, stellen wij MSign voor, een nieuwe optimalisatiemethode die periodiek matrix sign-bewerkingen toepast om de stabiele rang te herstellen. Experimenten met modellen van 5M tot 3B parameters tonen aan dat MSign trainingsfouten effectief voorkomt met een rekenkundige overhead van minder dan 7,0%.

English

Training instability remains a critical challenge in large language model (LLM) pretraining, often manifesting as sudden gradient explosions that waste significant computational resources. We study training failures in a 5M-parameter NanoGPT model scaled via μP, identifying two key phenomena preceding collapse: (1) rapid decline in weight matrix stable rank (ratio of squared Frobenius norm to squared spectral norm), and (2) increasing alignment between adjacent layer Jacobians. We prove theoretically that these two conditions jointly cause exponential gradient norm growth with network depth. To break this instability mechanism, we propose MSign, a new optimizer that periodically applies matrix sign operations to restore stable rank. Experiments on models from 5M to 3B parameters demonstrate that MSign effectively prevents training failures with a computational overhead of less than 7.0%.

MSign: Een Optimalisatiemethode die Trainingsinstabiliteit in Grote Taalmodellen Voorkomt via Stabiele Rangherstel

MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

Samenvatting

Support