Parallelle Schaalwet voor Taalmodellen
Parallel Scaling Law for Language Models
May 15, 2025
Auteurs: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
cs.AI
Samenvatting
Er wordt algemeen aangenomen dat het schalen van taalmodellen een aanzienlijke ruimte- of tijdsinvestering vereist, door het verhogen van het aantal parameters (parameterschaling) of uitvoertokens (inferentie-tijd schaling). Wij introduceren het derde en meer inferentie-efficiënte schaalparadigma: het vergroten van de parallelle berekening van het model tijdens zowel de training als de inferentie. We passen P diverse en leerbare transformaties toe op de invoer, voeren forward passes van het model parallel uit, en aggregeren de P uitvoerwaarden dynamisch. Deze methode, genaamd parallelle schaling (ParScale), schaalt de parallelle berekening door bestaande parameters te hergebruiken en kan worden toegepast op elke modelstructuur, optimalisatieprocedure, dataset of taak. We stellen theoretisch een nieuwe schaalwet voor en valideren deze door middel van grootschalige pre-training, wat aantoont dat een model met P parallelle streams vergelijkbaar is met het schalen van de parameters met O(log P), terwijl het superieure inferentie-efficiëntie vertoont. ParScale kan bijvoorbeeld tot 22 keer minder geheugentoename en 6 keer minder latentietoename gebruiken in vergelijking met parameterschaling die dezelfde prestatieverbetering bereikt. Het kan ook een kant-en-klaar voorgetraind model recyclen naar een parallel geschaald model door post-training op een kleine hoeveelheid tokens, wat het trainingsbudget verder verlaagt. De nieuwe schaalwet die we hebben ontdekt, vergemakkelijkt mogelijk de implementatie van krachtigere modellen in scenario's met beperkte middelen, en biedt een alternatief perspectief op de rol van berekening in machine learning.
English
It is commonly believed that scaling language models should commit a
significant space or time cost, by increasing the parameters (parameter
scaling) or output tokens (inference-time scaling). We introduce the third and
more inference-efficient scaling paradigm: increasing the model's parallel
computation during both training and inference time. We apply P diverse and
learnable transformations to the input, execute forward passes of the model in
parallel, and dynamically aggregate the P outputs. This method, namely
parallel scaling (ParScale), scales parallel computation by reusing existing
parameters and can be applied to any model structure, optimization procedure,
data, or task. We theoretically propose a new scaling law and validate it
through large-scale pre-training, which shows that a model with P parallel
streams is similar to scaling the parameters by O(log P) while showing
superior inference efficiency. For example, ParScale can use up to 22times
less memory increase and 6times less latency increase compared to parameter
scaling that achieves the same performance improvement. It can also recycle an
off-the-shelf pre-trained model into a parallelly scaled one by post-training
on a small amount of tokens, further reducing the training budget. The new
scaling law we discovered potentially facilitates the deployment of more
powerful models in low-resource scenarios, and provides an alternative
perspective for the role of computation in machine learning.Summary
AI-Generated Summary