A Escalabilidade Ótima Requer uma Norma Ótima

Resumo

Apesar dos recentes avanços na transferência ótima de hiperparâmetros sob escalonamento de modelo e conjunto de dados, nenhum princípio explicativo unificador foi estabelecido. Utilizando o otimizador Scion, descobrimos que o escalonamento ótimo conjunto entre tamanhos de modelo e conjunto de dados é governado por um único invariante: a norma do operador da camada de saída. Em modelos com até 1,3 bilhão de parâmetros treinados em até 138 bilhões de tokens, o par ótimo de taxa de aprendizado/tamanho do lote (eta^{ast}, B^{ast}) consistentemente apresenta o mesmo valor de norma do operador — um fenômeno que denominamos transferência de norma. Essa condição de norma constante é necessária, mas não suficiente: embora, para cada tamanho de conjunto de dados, múltiplos pares (eta, B) atinjam a norma ótima, apenas um único (eta^{ast}, B^{ast}) alcança a melhor perda. Como condição suficiente, fornecemos a primeira medição do escalonamento de (eta^{ast}, B^{ast}) com o tamanho do conjunto de dados para o Scion, e descobrimos que as regras de escalonamento são consistentes com as do otimizador Adam. Ajustar as taxas de aprendizado por grupo de camadas também melhora o desempenho do modelo, com a camada de saída sendo a mais sensível e as camadas ocultas se beneficiando de taxas de aprendizado mais baixas. Fornecemos insights práticos sobre o escalonamento ótimo guiado por norma e liberamos nossa implementação do Scion Distribuído (Disco) com logs de mais de dois mil experimentos para apoiar pesquisas sobre a dinâmica de treinamento de LLMs em escala.

English

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair (eta^{ast}, B^{ast}) consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple (eta, B) reach the optimal norm, only a unique (eta^{ast}, B^{ast}) achieves the best loss. As a sufficient condition, we provide the first measurement of (eta^{ast}, B^{ast}) scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.

A Escalabilidade Ótima Requer uma Norma Ótima

Optimal Scaling Needs Optimal Norm

Resumo

Support