Leis de Escala Neurais Unificadas

Resumo

Apresentamos uma forma funcional (a que nos referimos como Lei de Escala Neural Unificada (UNSL)) que modela e extrapola com precisão os comportamentos de escala de redes neurais profundas à medida que múltiplas dimensões variam simultaneamente (ou seja, como a métrica de avaliação de interesse varia ao se variar simultaneamente o número de parâmetros do modelo, o tamanho do conjunto de dados de treinamento, o número de passos de treinamento, o número de passos de inferência, a quantidade de computação e vários hiperparâmetros) para diversas arquiteturas e para cada uma das várias tarefas dentro de um conjunto variado de tarefas upstream e downstream. Este conjunto inclui visão, linguagem, matemática e aprendizado por reforço em larga escala. Quando comparada a outras formas funcionais para escala neural, esta forma funcional produz extrapolações do comportamento de escala que são consideravelmente mais precisas neste conjunto.

English

We present a functional form (that we refer to as a Unified Neural Scaling Law (UNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks as multiple dimensions all vary simultaneously (i.e. how the evaluation metric of interest varies as one simultaneously varies the number of model parameters, training dataset size, number of training steps, number of inference steps, amount of compute, and various hyperparameters) for various architectures and for each of various tasks within a varied set of upstream and downstream tasks. This set includes large-scale vision, language, math, and reinforcement learning. When compared to other functional forms for neural scaling, this functional form yields extrapolations of scaling behavior that are considerably more accurate on this set.