Paralleles Skalierungsgesetz für Sprachmodelle
Parallel Scaling Law for Language Models
May 15, 2025
Autoren: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
cs.AI
Zusammenfassung
Es wird allgemein angenommen, dass die Skalierung von Sprachmodellen einen erheblichen Platz- oder Zeitaufwand erfordert, indem entweder die Parameter (Parameter-Skalierung) oder die Ausgabe-Tokens (Inferenzzeit-Skalierung) erhöht werden. Wir führen das dritte und inferenzeffizientere Skalierungsparadigma ein: die Erhöhung der parallelen Berechnung des Modells sowohl während des Trainings als auch der Inferenz. Wir wenden P verschiedene und lernbare Transformationen auf die Eingabe an, führen Vorwärtsdurchläufe des Modells parallel aus und aggregieren die P Ausgaben dynamisch. Diese Methode, genannt Parallel Scaling (ParScale), skaliert die parallele Berechnung durch die Wiederverwendung vorhandener Parameter und kann auf jede Modellstruktur, Optimierungsprozedur, Daten oder Aufgabe angewendet werden. Wir schlagen theoretisch ein neues Skalierungsgesetz vor und validieren es durch groß angelegtes Pre-Training, das zeigt, dass ein Modell mit P parallelen Strömen ähnlich ist wie die Skalierung der Parameter um O(log P), während es eine überlegene Inferenzeffizienz aufweist. Beispielsweise kann ParScale bis zu 22-mal weniger Speicherzunahme und 6-mal weniger Latenzzunahme im Vergleich zur Parameter-Skalierung verwenden, die die gleiche Leistungsverbesserung erreicht. Es kann auch ein vorgefertigtes, vortrainiertes Modell durch Nachtraining auf einer kleinen Menge von Tokens in ein parallel skaliertes Modell umwandeln, wodurch das Trainingsbudget weiter reduziert wird. Das von uns entdeckte neue Skalierungsgesetz erleichtert potenziell die Bereitstellung leistungsfähigerer Modelle in ressourcenarmen Szenarien und bietet eine alternative Perspektive auf die Rolle der Berechnung im maschinellen Lernen.
English
It is commonly believed that scaling language models should commit a
significant space or time cost, by increasing the parameters (parameter
scaling) or output tokens (inference-time scaling). We introduce the third and
more inference-efficient scaling paradigm: increasing the model's parallel
computation during both training and inference time. We apply P diverse and
learnable transformations to the input, execute forward passes of the model in
parallel, and dynamically aggregate the P outputs. This method, namely
parallel scaling (ParScale), scales parallel computation by reusing existing
parameters and can be applied to any model structure, optimization procedure,
data, or task. We theoretically propose a new scaling law and validate it
through large-scale pre-training, which shows that a model with P parallel
streams is similar to scaling the parameters by O(log P) while showing
superior inference efficiency. For example, ParScale can use up to 22times
less memory increase and 6times less latency increase compared to parameter
scaling that achieves the same performance improvement. It can also recycle an
off-the-shelf pre-trained model into a parallelly scaled one by post-training
on a small amount of tokens, further reducing the training budget. The new
scaling law we discovered potentially facilitates the deployment of more
powerful models in low-resource scenarios, and provides an alternative
perspective for the role of computation in machine learning.Summary
AI-Generated Summary