ChatPaper.aiChatPaper

Reinforcement Learning verfeinert kleine Teilnetzwerke in großen Sprachmodellen.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

May 16, 2025
Autoren: Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng
cs.AI

Zusammenfassung

Reinforcement Learning (RL) führt zu erheblichen Verbesserungen in der Leistung von großen Sprachmodellen (LLMs) bei nachgelagerten Aufgaben und ihrer Ausrichtung an menschlichen Werten. Überraschenderweise resultieren solche großen Fortschritte aus der Aktualisierung nur eines kleinen Teilnetzwerks, das lediglich 5 bis 30 Prozent der Parameter umfasst, während der Rest effektiv unverändert bleibt. Wir bezeichnen dieses Phänomen als Parameter-Update-Sparsity, die durch RL induziert wird. Dies wird bei allen 7 weit verbreiteten RL-Algorithmen (z.B. PPO, GRPO, DPO) und allen 10 LLMs aus verschiedenen Modellfamilien in unseren Experimenten beobachtet. Diese Sparsity ist intrinsisch und tritt ohne explizite Sparsity-fördernde Regularisierungen oder architektonische Einschränkungen auf. Das Feinabstimmen des Teilnetzwerks allein stellt die Testgenauigkeit wieder her und erzeugt bemerkenswerterweise ein Modell, das nahezu identisch mit dem durch vollständiges Feinabstimmen erhaltenen ist. Die Teilnetzwerke aus verschiedenen Zufallsinitialisierungen, Trainingsdaten und sogar RL-Algorithmen zeigen eine deutlich größere Überlappung als zufällig zu erwarten wäre. Unsere Analyse legt nahe, dass diese Sparsity nicht darauf zurückzuführen ist, dass nur eine Teilmenge der Schichten aktualisiert wird, sondern dass nahezu alle Parameter-Matrizen ähnlich spärliche Updates erhalten. Darüber hinaus sind die Updates für fast alle Parameter-Matrizen nahezu vollrangig, was darauf hindeutet, dass RL eine kleine Teilmenge von Parametern aktualisiert, die dennoch fast die gesamten Unterräume abdecken, die die Parameter-Matrizen darstellen können. Wir vermuten, dass diese Update-Sparsity hauptsächlich auf das Training mit Daten zurückzuführen ist, die nahe der Policy-Verteilung liegen, und dass Techniken, die die Policy dazu anregen, nahe am vortrainierten Modell zu bleiben, wie die KL-Regularisierung und Gradient Clipping, nur begrenzten Einfluss haben.
English
Reinforcement learning (RL) yields substantial improvements in large language models (LLMs) downstream task performance and alignment with human values. Surprisingly, such large gains result from updating only a small subnetwork comprising just 5 percent to 30 percent of the parameters, with the rest effectively unchanged. We refer to this phenomenon as parameter update sparsity induced by RL. It is observed across all 7 widely used RL algorithms (e.g., PPO, GRPO, DPO) and all 10 LLMs from different families in our experiments. This sparsity is intrinsic and occurs without any explicit sparsity promoting regularizations or architectural constraints. Finetuning the subnetwork alone recovers the test accuracy, and, remarkably, produces a model nearly identical to the one obtained via full finetuning. The subnetworks from different random seeds, training data, and even RL algorithms show substantially greater overlap than expected by chance. Our analysis suggests that this sparsity is not due to updating only a subset of layers, instead, nearly all parameter matrices receive similarly sparse updates. Moreover, the updates to almost all parameter matrices are nearly full-rank, suggesting RL updates a small subset of parameters that nevertheless span almost the full subspaces that the parameter matrices can represent. We conjecture that the this update sparsity can be primarily attributed to training on data that is near the policy distribution, techniques that encourage the policy to remain close to the pretrained model, such as the KL regularization and gradient clipping, have limited impact.

Summary

AI-Generated Summary

PDF52May 23, 2025