Legge di Scalabilità Parallela per Modelli Linguistici

Abstract

È comunemente ritenuto che il ridimensionamento dei modelli linguistici comporti un significativo costo in termini di spazio o tempo, aumentando i parametri (ridimensionamento dei parametri) o i token di output (ridimensionamento al momento dell'inferenza). Introduciamo il terzo e più efficiente paradigma di ridimensionamento: l'aumento del calcolo parallelo del modello sia durante l'addestramento che al momento dell'inferenza. Applichiamo P trasformazioni diverse e apprendibili all'input, eseguiamo passaggi in avanti del modello in parallelo e aggregiamo dinamicamente gli P output. Questo metodo, denominato ridimensionamento parallelo (ParScale), scala il calcolo parallelo riutilizzando i parametri esistenti e può essere applicato a qualsiasi struttura del modello, procedura di ottimizzazione, dati o task. Teoricamente, proponiamo una nuova legge di ridimensionamento e la validiamo attraverso un pre-addestramento su larga scala, che dimostra che un modello con P flussi paralleli è simile al ridimensionamento dei parametri di O(log P) mostrando al contempo una superiore efficienza di inferenza. Ad esempio, ParScale può utilizzare fino a 22 volte meno aumento di memoria e 6 volte meno aumento della latenza rispetto al ridimensionamento dei parametri che raggiunge lo stesso miglioramento delle prestazioni. Può anche riciclare un modello pre-addestrato disponibile in commercio in uno ridimensionato parallelmente mediante post-addestramento su una piccola quantità di token, riducendo ulteriormente il budget di addestramento. La nuova legge di ridimensionamento che abbiamo scoperto facilita potenzialmente la distribuzione di modelli più potenti in scenari a basso contenuto di risorse e fornisce una prospettiva alternativa sul ruolo del calcolo nell'apprendimento automatico.

English

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling paradigm: increasing the model's parallel computation during both training and inference time. We apply P diverse and learnable transformations to the input, execute forward passes of the model in parallel, and dynamically aggregate the P outputs. This method, namely parallel scaling (ParScale), scales parallel computation by reusing existing parameters and can be applied to any model structure, optimization procedure, data, or task. We theoretically propose a new scaling law and validate it through large-scale pre-training, which shows that a model with P parallel streams is similar to scaling the parameters by O(log P) while showing superior inference efficiency. For example, ParScale can use up to 22times less memory increase and 6times less latency increase compared to parameter scaling that achieves the same performance improvement. It can also recycle an off-the-shelf pre-trained model into a parallelly scaled one by post-training on a small amount of tokens, further reducing the training budget. The new scaling law we discovered potentially facilitates the deployment of more powerful models in low-resource scenarios, and provides an alternative perspective for the role of computation in machine learning.

Legge di Scalabilità Parallela per Modelli Linguistici

Parallel Scaling Law for Language Models

Abstract

Support