Loi d'échelle parallèle pour les modèles de langage

Résumé

Il est communément admis que la mise à l'échelle des modèles de langage devrait engendrer un coût significatif en espace ou en temps, en augmentant les paramètres (mise à l'échelle des paramètres) ou les tokens de sortie (mise à l'échelle au moment de l'inférence). Nous introduisons un troisième paradigme de mise à l'échelle, plus efficace en termes d'inférence : l'augmentation du calcul parallèle du modèle pendant l'entraînement et l'inférence. Nous appliquons P transformations diverses et apprenables à l'entrée, exécutons les passes avant du modèle en parallèle, et agrégons dynamiquement les P sorties. Cette méthode, appelée mise à l'échelle parallèle (ParScale), met à l'échelle le calcul parallèle en réutilisant les paramètres existants et peut être appliquée à n'importe quelle structure de modèle, procédure d'optimisation, données ou tâche. Nous proposons théoriquement une nouvelle loi de mise à l'échelle et la validons par un pré-entraînement à grande échelle, qui montre qu'un modèle avec P flux parallèles est similaire à une mise à l'échelle des paramètres par O(log P) tout en présentant une efficacité d'inférence supérieure. Par exemple, ParScale peut utiliser jusqu'à 22 fois moins d'augmentation de mémoire et 6 fois moins d'augmentation de latence par rapport à la mise à l'échelle des paramètres pour atteindre la même amélioration de performance. Il peut également recycler un modèle pré-entraîné standard en un modèle mis à l'échelle parallèlement par un post-entraînement sur un petit nombre de tokens, réduisant ainsi davantage le budget d'entraînement. La nouvelle loi de mise à l'échelle que nous avons découverte facilite potentiellement le déploiement de modèles plus puissants dans des scénarios à ressources limitées, et offre une perspective alternative sur le rôle du calcul dans l'apprentissage automatique.

English

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling paradigm: increasing the model's parallel computation during both training and inference time. We apply P diverse and learnable transformations to the input, execute forward passes of the model in parallel, and dynamically aggregate the P outputs. This method, namely parallel scaling (ParScale), scales parallel computation by reusing existing parameters and can be applied to any model structure, optimization procedure, data, or task. We theoretically propose a new scaling law and validate it through large-scale pre-training, which shows that a model with P parallel streams is similar to scaling the parameters by O(log P) while showing superior inference efficiency. For example, ParScale can use up to 22times less memory increase and 6times less latency increase compared to parameter scaling that achieves the same performance improvement. It can also recycle an off-the-shelf pre-trained model into a parallelly scaled one by post-training on a small amount of tokens, further reducing the training budget. The new scaling law we discovered potentially facilitates the deployment of more powerful models in low-resource scenarios, and provides an alternative perspective for the role of computation in machine learning.

Loi d'échelle parallèle pour les modèles de langage

Parallel Scaling Law for Language Models

Résumé

Support