ChatPaper.aiChatPaper

SimpleGPT : Améliorer GPT grâce à une stratégie de normalisation simple

SimpleGPT: Improving GPT via A Simple Normalization Strategy

February 1, 2026
papers.authors: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI

papers.abstract

Dans ce travail, nous revisitons l'optimisation des Transformers sous l'angle de la géométrie du second ordre et établissons un lien direct entre la conception architecturale, l'échelle des activations, la matrice Hessienne et le taux d'apprentissage maximal tolérable. Nous introduisons une stratégie de normalisation simple, nommée SimpleNorm, qui stabilise par construction les échelles d'activation intermédiaires. Ensuite, en analysant le Hessien de la fonction de perte par rapport aux activations du réseau, nous montrons théoriquement que SimpleNorm réduit significativement la norme spectrale du Hessien, permettant ainsi l'utilisation de taux d'apprentissage stables plus élevés. Nous validons nos résultats théoriques par des expériences approfondies sur de grands modèles GPT aux échelles de 1B, 1,4B, 7B et 8B de paramètres. Empiriquement, SimpleGPT, notre réseau basé sur SimpleNorm, tolère des taux d'apprentissage 3 à 10 fois supérieurs à la norme standard, démontre systématiquement une forte stabilité d'optimisation et obtient des performances substantiellement meilleures que les bases de référence établies. Concrètement, lors de l'entraînement de modèles à l'échelle de 7B sur 60 000 pas, SimpleGPT atteint une perte d'entraînement inférieure de 0,08 à celle de LLaMA2 avec QKNorm, réduisant la perte de 2,290 à 2,208. Notre code source sera publié à l'adresse https://github.com/Ocram7/SimpleGPT.
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.
PDF34February 8, 2026