SimpleGPT: Verbetering van GPT via een Eenvormalige Normalisatiestrategie
SimpleGPT: Improving GPT via A Simple Normalization Strategy
February 1, 2026
Auteurs: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI
Samenvatting
In dit werk onderzoeken we Transformer-optimalisatie opnieuw vanuit het perspectief van tweede-orde-geometrie en leggen we een direct verband tussen architectuurontwerp, activatieschaal, de Hessiaanmatrix en het maximaal verdraagbare leertempo. We introduceren een eenvoudige normalisatiestrategie, genaamd SimpleNorm, die intermediaire activatieschalen van nature stabiliseert. Vervolgens tonen we theoretisch aan, door de Hessiaan van het verlies ten opzichte van netwerkactivaties te analyseren, dat SimpleNorm de spectrale norm van de Hessiaan aanzienlijk reduceert, waardoor grotere stabiele leertempo's mogelijk worden. We valideren onze theoretische bevindingen met uitgebreide experimenten op grote GPT-modellen met parameterschalen van 1B, 1.4B, 7B en 8B. Empirisch gezien verdraagt SimpleGPT, ons op SimpleNorm gebaseerde netwerk, leertempo's die 3 tot 10 keer hoger zijn dan de standaardconventie, toont het consistente optimalisatiestabiliteit en behaalt het aanzienlijk betere prestaties dan gevestigde baseline-modellen. Specifiek, bij het trainen van modellen op 7B-schaal voor 60K stappen, behaalt SimpleGPT een trainigsverlies dat 0,08 lager ligt dan dat van LLaMA2 met QKNorm, waarbij het verlies daalt van 2,290 naar 2,208. Onze broncode zal worden vrijgegeven op https://github.com/Ocram7/SimpleGPT.
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.