SimpleGPT: Melhorando o GPT através de uma Estratégia Simples de Normalização

Resumo

Neste trabalho, revisitamos a otimização de Transformadores através da lente da geometria de segunda ordem e estabelecemos uma conexão direta entre o design arquitetônico, a escala de ativação, a matriz Hessiana e a taxa de aprendizagem máxima tolerável. Introduzimos uma estratégia de normalização simples, denominada SimpleNorm, que estabiliza as escalas de ativação intermediárias por construção. Em seguida, ao analisar a Hessiana da perda em relação às ativações da rede, demonstramos teoricamente que o SimpleNorm reduz significativamente a norma espectral da Hessiana, permitindo assim taxas de aprendizagem estáveis maiores. Validamos nossas descobertas teóricas por meio de extensivos experimentos em grandes modelos GPT nas escalas de parâmetros de 1B, 1,4B, 7B e 8B. Empiricamente, o SimpleGPT, nossa rede baseada em SimpleNorm, tolera taxas de aprendizagem 3 a 10 vezes maiores do que o padrão convencional, demonstra consistentemente forte estabilidade de otimização e alcança desempenho substancialmente melhor do que as linhas de base consolidadas. Especificamente, ao treinar modelos de escala 7B por 60K etapas, o SimpleGPT alcança uma perda de treinamento 0,08 menor do que a do LLaMA2 com QKNorm, reduzindo a perda de 2,290 para 2,208. Nosso código-fonte será liberado em https://github.com/Ocram7/SimpleGPT.

English

In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.

SimpleGPT: Melhorando o GPT através de uma Estratégia Simples de Normalização

SimpleGPT: Improving GPT via A Simple Normalization Strategy

Resumo

Support