ChatPaper.aiChatPaper

SimpleGPT: 간단한 정규화 전략을 통한 GPT 성능 향상

SimpleGPT: Improving GPT via A Simple Normalization Strategy

February 1, 2026
저자: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao
cs.AI

초록

본 연구에서는 2차 미분 기하학적 관점에서 Transformer 최적화를 재검토하며, 아키텍처 설계, 활성화 스케일, 헤시안 행렬 및 최대 허용 학습률 간의 직접적인 연관성을 규명합니다. 우리는 구조적으로 중간 활성화 스케일을 안정화하는 SimpleNorm이라는 간단한 정규화 전략을 제안합니다. 이후 네트워크 활성화에 대한 손실 함수의 헤시안을 분석함으로써 SimpleNorm이 헤시안의 스펙트럼 노름을 현저히 감소시켜 더 큰 안정적 학습률을 가능하게 함을 이론적으로 증명합니다. 1B, 1.4B, 7B, 8B 매개변수 규모의 대규모 GPT 모델을 대상으로 한 폭넓은 실험을 통해 이론적 주장을 검증합니다. 경험적으로, SimpleNorm을 기반으로 한 우리의 네트워크인 SimpleGPT는 기존 표준 대비 3~10배 큰 학습률을 허용하며, 뛰어난 최적화 안정성을 지속적으로 보여주고 확립된 베이스라인 대비 현저히 향상된 성능을 달성합니다. 구체적으로, 7B 규모 모델을 60,000단계 학습시켰을 때 SimpleGPT는 QKNorm을 적용한 LLaMA2 대비 0.08 낮은 학습 손실(2.290에서 2.208으로 감소)을 기록했습니다. 소스 코드는 https://github.com/Ocram7/SimpleGPT에서 공개될 예정입니다.
English
In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.
PDF21February 5, 2026