SimpleGPT: Mejorando GPT mediante una estrategia de normalización simple
SimpleGPT: Improving GPT via A Simple Normalization Strategy
February 1, 2026
Autores: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI
Resumen
En este trabajo, revisitamos la optimización de los Transformers desde la perspectiva de la geometría de segundo orden y establecemos una conexión directa entre el diseño arquitectónico, la escala de las activaciones, la matriz Hessiana y la tasa de aprendizaje máxima tolerable. Introducimos una estrategia de normalización simple, denominada SimpleNorm, que estabiliza por construcción las escalas de las activaciones intermedias. Luego, mediante el análisis de la Hessiana de la pérdida con respecto a las activaciones de la red, demostramos teóricamente que SimpleNorm reduce significativamente la norma espectral de la Hessiana, permitiendo así tasas de aprendizaje estables más grandes. Validamos nuestros hallazgos teóricos mediante extensos experimentos en grandes modelos GPT con escalas de parámetros de 1B, 1.4B, 7B y 8B. Empíricamente, SimpleGPT, nuestra red basada en SimpleNorm, tolera tasas de aprendizaje de 3 a 10 veces mayores que las convencionales, demuestra consistentemente una fuerte estabilidad de optimización y logra un rendimiento sustancialmente mejor que las líneas base bien establecidas. Específicamente, al entrenar modelos de escala 7B durante 60K pasos, SimpleGPT alcanza una pérdida de entrenamiento 0.08 inferior a la de LLaMA2 con QKNorm, reduciendo la pérdida de 2.290 a 2.208. Nuestro código fuente será liberado en https://github.com/Ocram7/SimpleGPT.
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.