MSign: Ein Optimierer zur Verhinderung von Trainingsinstabilität in großen Sprachmodellen durch stabile Rangwiederherstellung

Zusammenfassung

Trainingsinstabilität bleibt eine kritische Herausforderung beim Pretraining großer Sprachmodelle (LLM) und äußert sich oft in plötzlichen Gradientenexplosionen, die erhebliche Rechenressourcen verschwenden. Wir untersuchen Trainingsabbrüche in einem mittels μP skalierten 5M-Parameter-NanoGPT-Modell und identifizieren zwei Schlüsselphänomene, die einem Kollaps vorausgehen: (1) einen rapiden Abfall des stabilen Rangs der Gewichtsmatrix (Verhältnis der quadrierten Frobenius-Norm zur quadrierten Spektralnorm) und (2) eine zunehmende Ausrichtung zwischen den Jacobi-Matrizen benachbarter Schichten. Wir beweisen theoretisch, dass diese beiden Bedingungen gemeinsam ein exponentielles Wachstum der Gradientennorm mit der Netzwerktiefe verursachen. Um diesen Instabilitätsmechanismus zu durchbrechen, schlagen wir MSign vor, einen neuen Optimierer, der periodisch Matrix-Signum-Operationen anwendet, um den stabilen Rang wiederherzustellen. Experimente an Modellen von 5M bis 3B Parametern demonstrieren, dass MSign Trainingsabbrüche wirksam verhindert, bei einem Rechenaufwand von weniger als 7,0 %.

English

Training instability remains a critical challenge in large language model (LLM) pretraining, often manifesting as sudden gradient explosions that waste significant computational resources. We study training failures in a 5M-parameter NanoGPT model scaled via μP, identifying two key phenomena preceding collapse: (1) rapid decline in weight matrix stable rank (ratio of squared Frobenius norm to squared spectral norm), and (2) increasing alignment between adjacent layer Jacobians. We prove theoretically that these two conditions jointly cause exponential gradient norm growth with network depth. To break this instability mechanism, we propose MSign, a new optimizer that periodically applies matrix sign operations to restore stable rank. Experiments on models from 5M to 3B parameters demonstrate that MSign effectively prevents training failures with a computational overhead of less than 7.0%.

MSign: Ein Optimierer zur Verhinderung von Trainingsinstabilität in großen Sprachmodellen durch stabile Rangwiederherstellung

MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

Zusammenfassung

Support