Закон масштабирования для языковых моделей при параллельных вычислениях
Parallel Scaling Law for Language Models
May 15, 2025
Авторы: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
cs.AI
Аннотация
Широко распространено мнение, что масштабирование языковых моделей должно сопровождаться значительными затратами на память или время, будь то за счет увеличения количества параметров (масштабирование параметров) или выходных токенов (масштабирование на этапе вывода). Мы представляем третий и более эффективный с точки зрения вывода подход к масштабированию: увеличение параллельных вычислений модели как на этапе обучения, так и на этапе вывода. Мы применяем P различных и обучаемых преобразований к входным данным, выполняем прямые проходы модели параллельно и динамически агрегируем P выходов. Этот метод, называемый параллельным масштабированием (ParScale), масштабирует параллельные вычисления за счет повторного использования существующих параметров и может быть применен к любой структуре модели, процедуре оптимизации, данным или задаче. Мы теоретически предлагаем новый закон масштабирования и подтверждаем его с помощью крупномасштабного предварительного обучения, которое показывает, что модель с P параллельными потоками эквивалентна масштабированию параметров на O(log P), демонстрируя при этом превосходную эффективность вывода. Например, ParScale может использовать до 22 раз меньше увеличения памяти и 6 раз меньше увеличения задержки по сравнению с масштабированием параметров, обеспечивающим такое же улучшение производительности. Он также может преобразовать готовую предварительно обученную модель в параллельно масштабированную путем дообучения на небольшом количестве токенов, что дополнительно сокращает бюджет на обучение. Обнаруженный нами новый закон масштабирования потенциально облегчает развертывание более мощных моделей в условиях ограниченных ресурсов и предлагает альтернативный взгляд на роль вычислений в машинном обучении.
English
It is commonly believed that scaling language models should commit a
significant space or time cost, by increasing the parameters (parameter
scaling) or output tokens (inference-time scaling). We introduce the third and
more inference-efficient scaling paradigm: increasing the model's parallel
computation during both training and inference time. We apply P diverse and
learnable transformations to the input, execute forward passes of the model in
parallel, and dynamically aggregate the P outputs. This method, namely
parallel scaling (ParScale), scales parallel computation by reusing existing
parameters and can be applied to any model structure, optimization procedure,
data, or task. We theoretically propose a new scaling law and validate it
through large-scale pre-training, which shows that a model with P parallel
streams is similar to scaling the parameters by O(log P) while showing
superior inference efficiency. For example, ParScale can use up to 22times
less memory increase and 6times less latency increase compared to parameter
scaling that achieves the same performance improvement. It can also recycle an
off-the-shelf pre-trained model into a parallelly scaled one by post-training
on a small amount of tokens, further reducing the training budget. The new
scaling law we discovered potentially facilitates the deployment of more
powerful models in low-resource scenarios, and provides an alternative
perspective for the role of computation in machine learning.Summary
AI-Generated Summary