El Aprendizaje por Refuerzo Afina Subredes Pequeñas en Modelos de Lenguaje de Gran Escala

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) produce mejoras sustanciales en el rendimiento de tareas posteriores de los modelos de lenguaje grandes (LLMs) y en su alineación con los valores humanos. Sorprendentemente, estas grandes mejoras resultan de actualizar solo una pequeña subred que comprende entre el 5 y el 30 por ciento de los parámetros, mientras que el resto permanece prácticamente sin cambios. Nos referimos a este fenómeno como la esparcidad de actualización de parámetros inducida por RL. Este fenómeno se observa en los 7 algoritmos de RL ampliamente utilizados (por ejemplo, PPO, GRPO, DPO) y en los 10 LLMs de diferentes familias en nuestros experimentos. Esta esparcidad es intrínseca y ocurre sin ninguna regularización explícita que promueva la esparcidad ni restricciones arquitectónicas. El ajuste fino de la subred por sí solo recupera la precisión en las pruebas y, notablemente, produce un modelo casi idéntico al obtenido mediante el ajuste fino completo. Las subredes obtenidas a partir de diferentes semillas aleatorias, datos de entrenamiento e incluso algoritmos de RL muestran una superposición sustancialmente mayor de lo esperado por casualidad. Nuestro análisis sugiere que esta esparcidad no se debe a la actualización de solo un subconjunto de capas; en cambio, casi todas las matrices de parámetros reciben actualizaciones igualmente dispersas. Además, las actualizaciones en casi todas las matrices de parámetros son casi de rango completo, lo que sugiere que RL actualiza un pequeño subconjunto de parámetros que, sin embargo, abarcan casi todos los subespacios que las matrices de parámetros pueden representar. Conjeturamos que esta esparcidad en las actualizaciones se puede atribuir principalmente al entrenamiento con datos cercanos a la distribución de la política, mientras que técnicas que fomentan que la política permanezca cerca del modelo preentrenado, como la regularización KL y el recorte de gradientes, tienen un impacto limitado.

English

Reinforcement learning (RL) yields substantial improvements in large language models (LLMs) downstream task performance and alignment with human values. Surprisingly, such large gains result from updating only a small subnetwork comprising just 5 percent to 30 percent of the parameters, with the rest effectively unchanged. We refer to this phenomenon as parameter update sparsity induced by RL. It is observed across all 7 widely used RL algorithms (e.g., PPO, GRPO, DPO) and all 10 LLMs from different families in our experiments. This sparsity is intrinsic and occurs without any explicit sparsity promoting regularizations or architectural constraints. Finetuning the subnetwork alone recovers the test accuracy, and, remarkably, produces a model nearly identical to the one obtained via full finetuning. The subnetworks from different random seeds, training data, and even RL algorithms show substantially greater overlap than expected by chance. Our analysis suggests that this sparsity is not due to updating only a subset of layers, instead, nearly all parameter matrices receive similarly sparse updates. Moreover, the updates to almost all parameter matrices are nearly full-rank, suggesting RL updates a small subset of parameters that nevertheless span almost the full subspaces that the parameter matrices can represent. We conjecture that the this update sparsity can be primarily attributed to training on data that is near the policy distribution, techniques that encourage the policy to remain close to the pretrained model, such as the KL regularization and gradient clipping, have limited impact.

El Aprendizaje por Refuerzo Afina Subredes Pequeñas en Modelos de Lenguaje de Gran Escala

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Resumen

Support