言語モデルの並列スケーリング則
Parallel Scaling Law for Language Models
May 15, 2025
著者: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
cs.AI
要旨
言語モデルのスケーリングには、パラメータを増やす(パラメータスケーリング)か、出力トークンを増やす(推論時スケーリング)ことで、多大な空間的または時間的コストがかかると一般的に考えられています。本論文では、第三の、より推論効率の高いスケーリングパラダイムを提案します。それは、モデルの並列計算をトレーニング時と推論時の両方で増やすというものです。入力に対してP種類の多様で学習可能な変換を適用し、モデルのフォワードパスを並列に実行し、P個の出力を動的に集約します。この方法、すなわち並列スケーリング(ParScale)は、既存のパラメータを再利用して並列計算をスケールし、任意のモデル構造、最適化手順、データ、またはタスクに適用可能です。我々は理論的に新しいスケーリング則を提案し、大規模な事前学習を通じてその有効性を検証しました。その結果、P個の並列ストリームを持つモデルは、パラメータをO(log P)倍スケールすることに類似しつつ、優れた推論効率を示すことがわかりました。例えば、ParScaleは、同じ性能向上を達成するパラメータスケーリングと比較して、最大22倍少ないメモリ増加と6倍少ないレイテンシ増加で済みます。また、既存の事前学習済みモデルを少量のトークンでポストトレーニングすることで並列スケールされたモデルにリサイクルすることも可能で、トレーニング予算をさらに削減できます。我々が発見した新しいスケーリング則は、低リソース環境でのより強力なモデルの展開を促進し、機械学習における計算の役割についての新たな視点を提供する可能性があります。
English
It is commonly believed that scaling language models should commit a
significant space or time cost, by increasing the parameters (parameter
scaling) or output tokens (inference-time scaling). We introduce the third and
more inference-efficient scaling paradigm: increasing the model's parallel
computation during both training and inference time. We apply P diverse and
learnable transformations to the input, execute forward passes of the model in
parallel, and dynamically aggregate the P outputs. This method, namely
parallel scaling (ParScale), scales parallel computation by reusing existing
parameters and can be applied to any model structure, optimization procedure,
data, or task. We theoretically propose a new scaling law and validate it
through large-scale pre-training, which shows that a model with P parallel
streams is similar to scaling the parameters by O(log P) while showing
superior inference efficiency. For example, ParScale can use up to 22times
less memory increase and 6times less latency increase compared to parameter
scaling that achieves the same performance improvement. It can also recycle an
off-the-shelf pre-trained model into a parallelly scaled one by post-training
on a small amount of tokens, further reducing the training budget. The new
scaling law we discovered potentially facilitates the deployment of more
powerful models in low-resource scenarios, and provides an alternative
perspective for the role of computation in machine learning.Summary
AI-Generated Summary