SimpleGPT: Migliorare GPT tramite una semplice strategia di normalizzazione

Abstract

In questo lavoro, esaminiamo nuovamente l'ottimizzazione dei Transformer attraverso la lente della geometria del secondo ordine e stabiliamo una connessione diretta tra la progettazione architetturale, la scala delle attivazioni, la matrice Hessiana e il tasso di apprendimento massimo tollerabile. Introduciamo una semplice strategia di normalizzazione, denominata SimpleNorm, che stabilizza per costruzione le scale delle attivazioni intermedie. Successivamente, analizzando l'Hessiana della loss rispetto alle attivazioni della rete, mostriamo teoricamente che SimpleNorm riduce significativamente la norma spettrale dell'Hessiana, permettendo così tassi di apprendimento stabili più elevati. Convalidiamo i nostri risultati teorici attraverso esperimenti estesi su modelli GPT di grandi dimensioni a scale parametriche di 1B, 1.4B, 7B e 8B. Empiricamente, SimpleGPT, la nostra rete basata su SimpleNorm, tollera tassi di apprendimento da 3 a 10 volte maggiori rispetto allo standard convenzionale, dimostra costantemente una forte stabilità di ottimizzazione e raggiunge prestazioni sostanzialmente migliori rispetto ai baseline consolidati. Nello specifico, addestrando modelli di scala 7B per 60K passi, SimpleGPT raggiunge una loss di addestramento inferiore di 0.08 rispetto a LLaMA2 con QKNorm, riducendo la loss da 2.290 a 2.208. Il nostro codice sorgente sarà rilasciato su https://github.com/Ocram7/SimpleGPT.

English

In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3times-10times larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.

SimpleGPT: Migliorare GPT tramite una semplice strategia di normalizzazione

SimpleGPT: Improving GPT via A Simple Normalization Strategy

Abstract

Support