Ley de Escalado Paralelo para Modelos de Lenguaje
Parallel Scaling Law for Language Models
May 15, 2025
Autores: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
cs.AI
Resumen
Es comúnmente aceptado que escalar modelos de lenguaje debería implicar un costo significativo en espacio o tiempo, ya sea aumentando los parámetros (escalado de parámetros) o los tokens de salida (escalado en tiempo de inferencia). Introducimos el tercer paradigma de escalado, más eficiente en inferencia: aumentar el cómputo paralelo del modelo tanto durante el entrenamiento como en el tiempo de inferencia. Aplicamos P transformaciones diversas y aprendibles a la entrada, ejecutamos pasos hacia adelante del modelo en paralelo y agregamos dinámicamente las P salidas. Este método, denominado escalado paralelo (ParScale), escala el cómputo paralelo reutilizando los parámetros existentes y puede aplicarse a cualquier estructura de modelo, procedimiento de optimización, datos o tarea. Teóricamente, proponemos una nueva ley de escalado y la validamos mediante pre-entrenamiento a gran escala, lo que demuestra que un modelo con P flujos paralelos es similar a escalar los parámetros en O(log P), mostrando una eficiencia de inferencia superior. Por ejemplo, ParScale puede usar hasta 22 veces menos aumento de memoria y 6 veces menos aumento de latencia en comparación con el escalado de parámetros que logra la misma mejora de rendimiento. También puede reciclar un modelo pre-entrenado estándar en uno escalado en paralelo mediante post-entrenamiento con una pequeña cantidad de tokens, reduciendo aún más el presupuesto de entrenamiento. La nueva ley de escalado que descubrimos facilita potencialmente el despliegue de modelos más potentes en escenarios de bajos recursos y ofrece una perspectiva alternativa sobre el papel del cómputo en el aprendizaje automático.
English
It is commonly believed that scaling language models should commit a
significant space or time cost, by increasing the parameters (parameter
scaling) or output tokens (inference-time scaling). We introduce the third and
more inference-efficient scaling paradigm: increasing the model's parallel
computation during both training and inference time. We apply P diverse and
learnable transformations to the input, execute forward passes of the model in
parallel, and dynamically aggregate the P outputs. This method, namely
parallel scaling (ParScale), scales parallel computation by reusing existing
parameters and can be applied to any model structure, optimization procedure,
data, or task. We theoretically propose a new scaling law and validate it
through large-scale pre-training, which shows that a model with P parallel
streams is similar to scaling the parameters by O(log P) while showing
superior inference efficiency. For example, ParScale can use up to 22times
less memory increase and 6times less latency increase compared to parameter
scaling that achieves the same performance improvement. It can also recycle an
off-the-shelf pre-trained model into a parallelly scaled one by post-training
on a small amount of tokens, further reducing the training budget. The new
scaling law we discovered potentially facilitates the deployment of more
powerful models in low-resource scenarios, and provides an alternative
perspective for the role of computation in machine learning.Summary
AI-Generated Summary