O Aprendizado por Reforço Ajusta Finamente Sub-redes Pequenas em Modelos de Linguagem de Grande Escala

Resumo

O aprendizado por reforço (RL) proporciona melhorias substanciais no desempenho de tarefas subsequentes de modelos de linguagem de grande escala (LLMs) e no alinhamento com valores humanos. Surpreendentemente, tais ganhos significativos resultam da atualização de apenas uma pequena sub-rede, compreendendo de 5% a 30% dos parâmetros, enquanto o restante permanece efetivamente inalterado. Referimo-nos a esse fenômeno como esparsidade de atualização de parâmetros induzida pelo RL. Isso foi observado em todos os 7 algoritmos de RL amplamente utilizados (por exemplo, PPO, GRPO, DPO) e em todos os 10 LLMs de diferentes famílias em nossos experimentos. Essa esparsidade é intrínseca e ocorre sem qualquer regularização explícita de promoção de esparsidade ou restrições arquiteturais. O ajuste fino apenas da sub-rede recupera a precisão do teste e, notavelmente, produz um modelo quase idêntico ao obtido por meio do ajuste fino completo. As sub-redes de diferentes sementes aleatórias, dados de treinamento e até mesmo algoritmos de RL apresentam uma sobreposição substancialmente maior do que o esperado por acaso. Nossa análise sugere que essa esparsidade não se deve à atualização de apenas um subconjunto de camadas; em vez disso, quase todas as matrizes de parâmetros recebem atualizações igualmente esparsas. Além disso, as atualizações para quase todas as matrizes de parâmetros são quase de posto completo, sugerindo que o RL atualiza um pequeno subconjunto de parâmetros que, no entanto, abrangem quase todos os subespaços que as matrizes de parâmetros podem representar. Conjecturamos que essa esparsidade de atualização pode ser atribuída principalmente ao treinamento em dados próximos à distribuição da política, enquanto técnicas que incentivam a política a permanecer próxima ao modelo pré-treinado, como a regularização KL e o corte de gradiente, têm impacto limitado.

English

Reinforcement learning (RL) yields substantial improvements in large language models (LLMs) downstream task performance and alignment with human values. Surprisingly, such large gains result from updating only a small subnetwork comprising just 5 percent to 30 percent of the parameters, with the rest effectively unchanged. We refer to this phenomenon as parameter update sparsity induced by RL. It is observed across all 7 widely used RL algorithms (e.g., PPO, GRPO, DPO) and all 10 LLMs from different families in our experiments. This sparsity is intrinsic and occurs without any explicit sparsity promoting regularizations or architectural constraints. Finetuning the subnetwork alone recovers the test accuracy, and, remarkably, produces a model nearly identical to the one obtained via full finetuning. The subnetworks from different random seeds, training data, and even RL algorithms show substantially greater overlap than expected by chance. Our analysis suggests that this sparsity is not due to updating only a subset of layers, instead, nearly all parameter matrices receive similarly sparse updates. Moreover, the updates to almost all parameter matrices are nearly full-rank, suggesting RL updates a small subset of parameters that nevertheless span almost the full subspaces that the parameter matrices can represent. We conjecture that the this update sparsity can be primarily attributed to training on data that is near the policy distribution, techniques that encourage the policy to remain close to the pretrained model, such as the KL regularization and gradient clipping, have limited impact.

O Aprendizado por Reforço Ajusta Finamente Sub-redes Pequenas em Modelos de Linguagem de Grande Escala

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Resumo

Support