ChatPaper.aiChatPaper

SimpleGPT: Улучшение GPT с помощью простой стратегии нормализации

SimpleGPT: Improving GPT via A Simple Normalization Strategy

February 1, 2026
Авторы: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI

Аннотация

В данной работе мы пересматриваем оптимизацию архитектуры Transformer через призму геометрии второго порядка и устанавливаем прямую связь между проектированием архитектуры, масштабом активаций, матрицей Гессе и максимально допустимой скоростью обучения. Мы представляем простую стратегию нормализации, названную SimpleNorm, которая стабилизирует масштабы промежуточных активаций по построению. Затем, анализируя гессиан функции потерь относительно активаций сети, мы теоретически показываем, что SimpleNorm значительно уменьшает спектральную норму гессиана, тем самым допуская использование более высоких стабильных скоростей обучения. Мы проверяем наши теоретические выводы с помощью обширных экспериментов на крупных GPT-моделях с масштабами параметров 1B, 1.4B, 7B и 8B. Эмпирически, наша сеть SimpleGPT, основанная на SimpleNorm, выдерживает скорости обучения в 3–10 раз выше стандартных значений, последовательно демонстрирует высокую оптимизационную стабильность и достигает существенно лучших результатов по сравнению с общепризнанными базовыми методами. В частности, при обучении моделей масштаба 7B в течение 60 тысяч шагов, SimpleGPT достигает значения функции потерь на 0.08 ниже, чем у LLaMA2 с QKNorm, снижая потери с 2.290 до 2.208. Наш исходный код будет опубликован по адресу https://github.com/Ocram7/SimpleGPT.
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.
PDF21February 5, 2026