El escalado óptimo requiere una norma óptima

Resumen

A pesar de los avances recientes en la transferencia óptima de hiperparámetros bajo escalamiento de modelos y conjuntos de datos, no se ha establecido un principio explicativo unificador. Utilizando el optimizador Scion, descubrimos que el escalamiento óptimo conjunto entre tamaños de modelo y de conjunto de datos está gobernado por un único invariante: la norma del operador de la capa de salida. En modelos con hasta 1.300 millones de parámetros entrenados con hasta 138.000 millones de tokens, el par óptimo de tasa de aprendizaje/tamaño de lote (eta^{ast}, B^{ast}) mantiene consistentemente el mismo valor de norma del operador, un fenómeno que denominamos transferencia de norma. Esta condición de norma constante es necesaria pero no suficiente: aunque para cada tamaño de conjunto de datos, múltiples pares (eta, B) alcanzan la norma óptima, solo un único (eta^{ast}, B^{ast}) logra la mejor pérdida. Como condición suficiente, proporcionamos la primera medición del escalamiento de (eta^{ast}, B^{ast}) con el tamaño del conjunto de datos para Scion, y encontramos que las reglas de escalamiento son consistentes con las del optimizador Adam. El ajuste de las tasas de aprendizaje por grupos de capas también mejora el rendimiento del modelo, siendo la capa de salida la más sensible y las capas ocultas beneficiándose de tasas de aprendizaje más bajas. Ofrecemos insights prácticos sobre el escalamiento óptimo guiado por normas y publicamos nuestra implementación de Scion Distribuido (Disco) con registros de más de dos mil ejecuciones para apoyar la investigación sobre la dinámica de entrenamiento de modelos de lenguaje a gran escala.

English

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.

El escalado óptimo requiere una norma óptima

Optimal Scaling Needs Optimal Norm

Resumen

Support