Legge di Scalabilità Parallela per Modelli Linguistici
Parallel Scaling Law for Language Models
May 15, 2025
Autori: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
cs.AI
Abstract
È comunemente ritenuto che il ridimensionamento dei modelli linguistici comporti un significativo costo in termini di spazio o tempo, aumentando i parametri (ridimensionamento dei parametri) o i token di output (ridimensionamento al momento dell'inferenza). Introduciamo il terzo e più efficiente paradigma di ridimensionamento: l'aumento del calcolo parallelo del modello sia durante l'addestramento che al momento dell'inferenza. Applichiamo P trasformazioni diverse e apprendibili all'input, eseguiamo passaggi in avanti del modello in parallelo e aggregiamo dinamicamente gli P output. Questo metodo, denominato ridimensionamento parallelo (ParScale), scala il calcolo parallelo riutilizzando i parametri esistenti e può essere applicato a qualsiasi struttura del modello, procedura di ottimizzazione, dati o task. Teoricamente, proponiamo una nuova legge di ridimensionamento e la validiamo attraverso un pre-addestramento su larga scala, che dimostra che un modello con P flussi paralleli è simile al ridimensionamento dei parametri di O(log P) mostrando al contempo una superiore efficienza di inferenza. Ad esempio, ParScale può utilizzare fino a 22 volte meno aumento di memoria e 6 volte meno aumento della latenza rispetto al ridimensionamento dei parametri che raggiunge lo stesso miglioramento delle prestazioni. Può anche riciclare un modello pre-addestrato disponibile in commercio in uno ridimensionato parallelmente mediante post-addestramento su una piccola quantità di token, riducendo ulteriormente il budget di addestramento. La nuova legge di ridimensionamento che abbiamo scoperto facilita potenzialmente la distribuzione di modelli più potenti in scenari a basso contenuto di risorse e fornisce una prospettiva alternativa sul ruolo del calcolo nell'apprendimento automatico.
English
It is commonly believed that scaling language models should commit a
significant space or time cost, by increasing the parameters (parameter
scaling) or output tokens (inference-time scaling). We introduce the third and
more inference-efficient scaling paradigm: increasing the model's parallel
computation during both training and inference time. We apply P diverse and
learnable transformations to the input, execute forward passes of the model in
parallel, and dynamically aggregate the P outputs. This method, namely
parallel scaling (ParScale), scales parallel computation by reusing existing
parameters and can be applied to any model structure, optimization procedure,
data, or task. We theoretically propose a new scaling law and validate it
through large-scale pre-training, which shows that a model with P parallel
streams is similar to scaling the parameters by O(log P) while showing
superior inference efficiency. For example, ParScale can use up to 22times
less memory increase and 6times less latency increase compared to parameter
scaling that achieves the same performance improvement. It can also recycle an
off-the-shelf pre-trained model into a parallelly scaled one by post-training
on a small amount of tokens, further reducing the training budget. The new
scaling law we discovered potentially facilitates the deployment of more
powerful models in low-resource scenarios, and provides an alternative
perspective for the role of computation in machine learning.