Lei de Escalabilidade Paralela para Modelos de Linguagem

Resumo

É comumente aceito que a escalonagem de modelos de linguagem deve incorrer em um custo significativo de espaço ou tempo, seja aumentando os parâmetros (escalonamento de parâmetros) ou os tokens de saída (escalonamento no tempo de inferência). Introduzimos o terceiro e mais eficiente paradigma de escalonamento em termos de inferência: aumentar a computação paralela do modelo durante o treinamento e o tempo de inferência. Aplicamos P transformações diversas e aprendíveis à entrada, executamos passagens diretas do modelo em paralelo e agregamos dinamicamente as P saídas. Este método, denominado escalonamento paralelo (ParScale), escala a computação paralela reutilizando parâmetros existentes e pode ser aplicado a qualquer estrutura de modelo, procedimento de otimização, dados ou tarefa. Teoricamente, propomos uma nova lei de escalonamento e a validamos por meio de pré-treinamento em larga escala, que mostra que um modelo com P fluxos paralelos é semelhante a escalonar os parâmetros por O(log P), ao mesmo tempo que demonstra eficiência superior na inferência. Por exemplo, o ParScale pode usar até 22 vezes menos aumento de memória e 6 vezes menos aumento de latência em comparação com o escalonamento de parâmetros que alcança a mesma melhoria de desempenho. Ele também pode reciclar um modelo pré-treinado disponível comercialmente em um escalonado paralelamente por meio de pós-treinamento em uma pequena quantidade de tokens, reduzindo ainda mais o orçamento de treinamento. A nova lei de escalonamento que descobrimos potencialmente facilita a implantação de modelos mais poderosos em cenários de baixos recursos e fornece uma perspectiva alternativa para o papel da computação no aprendizado de máquina.

English

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling paradigm: increasing the model's parallel computation during both training and inference time. We apply P diverse and learnable transformations to the input, execute forward passes of the model in parallel, and dynamically aggregate the P outputs. This method, namely parallel scaling (ParScale), scales parallel computation by reusing existing parameters and can be applied to any model structure, optimization procedure, data, or task. We theoretically propose a new scaling law and validate it through large-scale pre-training, which shows that a model with P parallel streams is similar to scaling the parameters by O(log P) while showing superior inference efficiency. For example, ParScale can use up to 22times less memory increase and 6times less latency increase compared to parameter scaling that achieves the same performance improvement. It can also recycle an off-the-shelf pre-trained model into a parallelly scaled one by post-training on a small amount of tokens, further reducing the training budget. The new scaling law we discovered potentially facilitates the deployment of more powerful models in low-resource scenarios, and provides an alternative perspective for the role of computation in machine learning.

Lei de Escalabilidade Paralela para Modelos de Linguagem

Parallel Scaling Law for Language Models

Resumo

Support