SimpleGPT: シンプルな正規化戦略によるGPTの改善
SimpleGPT: Improving GPT via A Simple Normalization Strategy
February 1, 2026
著者: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI
要旨
本論文では、Transformerの最適化を二次幾何学の観点から再検討し、アーキテクチャ設計、活性化スケール、ヘッセ行列、最大許容学習率の間の直接的な関係を確立する。我々は、構成的に中間活性化スケールを安定化するSimpleNormと呼ぶ単純な正規化手法を提案する。さらに、ネットワーク活性化に関する損失関数のヘッセ行列を解析することにより、SimpleNormがヘッセ行列のスペクトルノルムを大幅に低減し、それによってより大きな安定学習率を可能にすることを理論的に示す。1B、1.4B、7B、8Bパラメータ規模の大規模GPTモデルを用いた広範な実験により、理論的知見を検証する。実証的に、我々のSimpleNormベースのネットワークであるSimpleGPTは、標準的な慣例よりも3~10倍大きな学習率を許容し、一貫して強力な最適化安定性を示し、確立されたベースラインを大幅に上回る性能を達成する。具体的には、7B規模モデルを60Kステップ訓練する場合、SimpleGPTはLLaMA2 with QKNormよりも訓練損失を0.08低減し(損失を2.290から2.208に低下させる)ことが確認された。ソースコードはhttps://github.com/Ocram7/SimpleGPT で公開予定である。
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.