MSign: Un Ottimizzatore che Previene l'Instabilità dell'Addestramento nei Grandi Modelli Linguistici tramite il Ripristino del Rango Stabile

Abstract

L'instabilità dell'addestramento rimane una sfida critica nella pre-addestramento dei grandi modelli linguistici (LLM), manifestandosi spesso come improvvisi picchi del gradiente che sprecano risorse computazionali significative. Studiamo i fallimenti dell'addestramento in un modello NanoGPT da 5 milioni di parametri scalato tramite μP, identificando due fenomeni chiave che precedono il collasso: (1) un rapido declino del rango stabile della matrice dei pesi (rapporto tra la norma di Frobenius al quadrato e la norma spettrale al quadrato), e (2) un crescente allineamento tra gli Jacobiani di strati adiacenti. Dimostriamo teoricamente che queste due condizioni causano congiuntamente una crescita esponenziale della norma del gradiente con la profondità della rete. Per interrompere questo meccanismo di instabilità, proponiamo MSign, un nuovo ottimizzatore che applica periodicamente operazioni di segno matriciale per ripristinare il rango stabile. Esperimenti su modelli da 5 milioni a 3 miliardi di parametri dimostrano che MSign previene efficacemente i fallimenti dell'addestramento con un sovraccarico computazionale inferiore al 7,0%.

English

Training instability remains a critical challenge in large language model (LLM) pretraining, often manifesting as sudden gradient explosions that waste significant computational resources. We study training failures in a 5M-parameter NanoGPT model scaled via μP, identifying two key phenomena preceding collapse: (1) rapid decline in weight matrix stable rank (ratio of squared Frobenius norm to squared spectral norm), and (2) increasing alignment between adjacent layer Jacobians. We prove theoretically that these two conditions jointly cause exponential gradient norm growth with network depth. To break this instability mechanism, we propose MSign, a new optimizer that periodically applies matrix sign operations to restore stable rank. Experiments on models from 5M to 3B parameters demonstrate that MSign effectively prevents training failures with a computational overhead of less than 7.0%.

MSign: Un Ottimizzatore che Previene l'Instabilità dell'Addestramento nei Grandi Modelli Linguistici tramite il Ripristino del Rango Stabile

MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

Abstract

Support