O Aprendizado por Reforço Ajusta Finamente Sub-redes Pequenas em Modelos de Linguagem de Grande Escala
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
May 16, 2025
Autores: Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng
cs.AI
Resumo
O aprendizado por reforço (RL) proporciona melhorias substanciais no desempenho de tarefas subsequentes de modelos de linguagem de grande escala (LLMs) e no alinhamento com valores humanos. Surpreendentemente, tais ganhos significativos resultam da atualização de apenas uma pequena sub-rede, compreendendo de 5% a 30% dos parâmetros, enquanto o restante permanece efetivamente inalterado. Referimo-nos a esse fenômeno como esparsidade de atualização de parâmetros induzida pelo RL. Isso foi observado em todos os 7 algoritmos de RL amplamente utilizados (por exemplo, PPO, GRPO, DPO) e em todos os 10 LLMs de diferentes famílias em nossos experimentos. Essa esparsidade é intrínseca e ocorre sem qualquer regularização explícita de promoção de esparsidade ou restrições arquiteturais. O ajuste fino apenas da sub-rede recupera a precisão do teste e, notavelmente, produz um modelo quase idêntico ao obtido por meio do ajuste fino completo. As sub-redes de diferentes sementes aleatórias, dados de treinamento e até mesmo algoritmos de RL apresentam uma sobreposição substancialmente maior do que o esperado por acaso. Nossa análise sugere que essa esparsidade não se deve à atualização de apenas um subconjunto de camadas; em vez disso, quase todas as matrizes de parâmetros recebem atualizações igualmente esparsas. Além disso, as atualizações para quase todas as matrizes de parâmetros são quase de posto completo, sugerindo que o RL atualiza um pequeno subconjunto de parâmetros que, no entanto, abrangem quase todos os subespaços que as matrizes de parâmetros podem representar. Conjecturamos que essa esparsidade de atualização pode ser atribuída principalmente ao treinamento em dados próximos à distribuição da política, enquanto técnicas que incentivam a política a permanecer próxima ao modelo pré-treinado, como a regularização KL e o corte de gradiente, têm impacto limitado.
English
Reinforcement learning (RL) yields substantial improvements in large language
models (LLMs) downstream task performance and alignment with human values.
Surprisingly, such large gains result from updating only a small subnetwork
comprising just 5 percent to 30 percent of the parameters, with the rest
effectively unchanged. We refer to this phenomenon as parameter update sparsity
induced by RL. It is observed across all 7 widely used RL algorithms (e.g.,
PPO, GRPO, DPO) and all 10 LLMs from different families in our experiments.
This sparsity is intrinsic and occurs without any explicit sparsity promoting
regularizations or architectural constraints. Finetuning the subnetwork alone
recovers the test accuracy, and, remarkably, produces a model nearly identical
to the one obtained via full finetuning. The subnetworks from different random
seeds, training data, and even RL algorithms show substantially greater overlap
than expected by chance. Our analysis suggests that this sparsity is not due to
updating only a subset of layers, instead, nearly all parameter matrices
receive similarly sparse updates. Moreover, the updates to almost all parameter
matrices are nearly full-rank, suggesting RL updates a small subset of
parameters that nevertheless span almost the full subspaces that the parameter
matrices can represent. We conjecture that the this update sparsity can be
primarily attributed to training on data that is near the policy distribution,
techniques that encourage the policy to remain close to the pretrained model,
such as the KL regularization and gradient clipping, have limited impact.