El Aprendizaje por Refuerzo Afina Subredes Pequeñas en Modelos de Lenguaje de Gran Escala
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
May 16, 2025
Autores: Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) produce mejoras sustanciales en el rendimiento de tareas posteriores de los modelos de lenguaje grandes (LLMs) y en su alineación con los valores humanos. Sorprendentemente, estas grandes mejoras resultan de actualizar solo una pequeña subred que comprende entre el 5 y el 30 por ciento de los parámetros, mientras que el resto permanece prácticamente sin cambios. Nos referimos a este fenómeno como la esparcidad de actualización de parámetros inducida por RL. Este fenómeno se observa en los 7 algoritmos de RL ampliamente utilizados (por ejemplo, PPO, GRPO, DPO) y en los 10 LLMs de diferentes familias en nuestros experimentos. Esta esparcidad es intrínseca y ocurre sin ninguna regularización explícita que promueva la esparcidad ni restricciones arquitectónicas. El ajuste fino de la subred por sí solo recupera la precisión en las pruebas y, notablemente, produce un modelo casi idéntico al obtenido mediante el ajuste fino completo. Las subredes obtenidas a partir de diferentes semillas aleatorias, datos de entrenamiento e incluso algoritmos de RL muestran una superposición sustancialmente mayor de lo esperado por casualidad. Nuestro análisis sugiere que esta esparcidad no se debe a la actualización de solo un subconjunto de capas; en cambio, casi todas las matrices de parámetros reciben actualizaciones igualmente dispersas. Además, las actualizaciones en casi todas las matrices de parámetros son casi de rango completo, lo que sugiere que RL actualiza un pequeño subconjunto de parámetros que, sin embargo, abarcan casi todos los subespacios que las matrices de parámetros pueden representar. Conjeturamos que esta esparcidad en las actualizaciones se puede atribuir principalmente al entrenamiento con datos cercanos a la distribución de la política, mientras que técnicas que fomentan que la política permanezca cerca del modelo preentrenado, como la regularización KL y el recorte de gradientes, tienen un impacto limitado.
English
Reinforcement learning (RL) yields substantial improvements in large language
models (LLMs) downstream task performance and alignment with human values.
Surprisingly, such large gains result from updating only a small subnetwork
comprising just 5 percent to 30 percent of the parameters, with the rest
effectively unchanged. We refer to this phenomenon as parameter update sparsity
induced by RL. It is observed across all 7 widely used RL algorithms (e.g.,
PPO, GRPO, DPO) and all 10 LLMs from different families in our experiments.
This sparsity is intrinsic and occurs without any explicit sparsity promoting
regularizations or architectural constraints. Finetuning the subnetwork alone
recovers the test accuracy, and, remarkably, produces a model nearly identical
to the one obtained via full finetuning. The subnetworks from different random
seeds, training data, and even RL algorithms show substantially greater overlap
than expected by chance. Our analysis suggests that this sparsity is not due to
updating only a subset of layers, instead, nearly all parameter matrices
receive similarly sparse updates. Moreover, the updates to almost all parameter
matrices are nearly full-rank, suggesting RL updates a small subset of
parameters that nevertheless span almost the full subspaces that the parameter
matrices can represent. We conjecture that the this update sparsity can be
primarily attributed to training on data that is near the policy distribution,
techniques that encourage the policy to remain close to the pretrained model,
such as the KL regularization and gradient clipping, have limited impact.Summary
AI-Generated Summary