ChatPaper.aiChatPaper

Il Ridimensionamento Ottimale Richiede una Norma Ottimale

Optimal Scaling Needs Optimal Norm

October 4, 2025
Autori: Oleg Filatov, Jiangtao Wang, Jan Ebert, Stefan Kesselheim
cs.AI

Abstract

Nonostante i recenti progressi nel trasferimento ottimale degli iperparametri in contesti di scalabilità del modello e del dataset, non è stato ancora stabilito un principio esplicativo unificante. Utilizzando l'ottimizzatore Scion, scopriamo che la scalabilità ottimale congiunta tra dimensioni del modello e del dataset è governata da un singolo invariante: la norma dell'operatore dello strato di output. Attraverso modelli con fino a 1,3 miliardi di parametri addestrati su fino a 138 miliardi di token, la coppia ottimale di tasso di apprendimento/dimensione del batch (eta^{ast}, B^{ast}) mantiene costantemente lo stesso valore della norma dell'operatore - un fenomeno che definiamo trasferimento della norma. Questa condizione di norma costante è necessaria ma non sufficiente: mentre per ogni dimensione del dataset, multiple coppie (eta, B) raggiungono la norma ottimale, solo una singola (eta^{ast}, B^{ast}) ottiene la migliore perdita. Come condizione sufficiente, forniamo la prima misurazione della scalabilità di (eta^{ast}, B^{ast}) con la dimensione del dataset per Scion, e troviamo che le regole di scalabilità sono coerenti con quelle dell'ottimizzatore Adam. La regolazione dei tassi di apprendimento per gruppi di strati migliora anche le prestazioni del modello, con lo strato di output che risulta essere il più sensibile e gli strati nascosti che beneficiano di tassi di apprendimento più bassi. Forniamo approfondimenti pratici sulla scalabilità ottimale guidata dalla norma e rilasciamo la nostra implementazione di Scion Distribuito (Disco) con i log di oltre duemila esecuzioni per supportare la ricerca sulla dinamica dell'addestramento di LLM su larga scala.
English
Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.
PDF282October 7, 2025