ChatPaper.aiChatPaper

SimpleGPT: Verbesserung von GPT durch eine einfache Normalisierungsstrategie

SimpleGPT: Improving GPT via A Simple Normalization Strategy

February 1, 2026
papers.authors: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI

papers.abstract

In dieser Arbeit betrachten wir die Optimierung von Transformer-Architekturen aus der Perspektive der Geometrie zweiter Ordnung und stellen eine direkte Verbindung zwischen Architekturdesign, Aktivierungsskala, der Hessematrix und der maximal tolerierbaren Lernrate her. Wir führen eine einfache Normalisierungsstrategie ein, genannt SimpleNorm, die durch ihre Konstruktion intermediate Aktivierungsskalen stabilisiert. Durch die Analyse der Hesse-Matrix des Loss in Bezug auf Netzwerkaktivierungen zeigen wir theoretisch, dass SimpleNorm die Spektralnorm der Hesse-Matrix signifikant reduziert und dadurch größere stabile Lernraten ermöglicht. Wir validieren unsere theoretischen Erkenntnisse durch umfangreiche Experimente mit großen GPT-Modellen im Parameterumfang von 1B, 1,4B, 7B und 8B. Empirisch toleriert SimpleGPT, unser auf SimpleNorm basierendes Netzwerk, 3- bis 10-fach höhere Lernraten als der Standard, zeigt durchgängig starke Optimierungsstabilität und erzielt wesentlich bessere Leistungen als etablierte Baseline-Modelle. Konkret erreicht SimpleGPT beim Training von Modellen im 7B-Maßstab über 60.000 Schritte einen Trainingsloss, der 0,08 niedriger ist als bei LLaMA2 mit QKNorm – eine Reduktion des Loss von 2,290 auf 2,208. Unser Quellcode wird unter https://github.com/Ocram7/SimpleGPT veröffentlicht.
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.
PDF21February 5, 2026