Over de voorspelbaarheid van Reinforcement Learning-dynamiek voor Grote Taalmodellen

Samenvatting

Recente vooruitgang in de redeneervaardigheden van grote taalmodellen (LLMs) wordt grotendeels aangedreven door reinforcement learning (RL), maar de onderliggende parameterdynamiek tijdens RL-training blijft slecht begrepen. Dit werk identificeert twee fundamentele eigenschappen van RL-geïnduceerde parameterupdates in LLMs: (1) Rang-1 Dominantie, waarbij de top singuliere deelruimte van de parameterupdate-matrix bijna volledig de verbeteringen in redenering bepaalt, wat meer dan 99% van de prestatieverbeteringen verklaart; en (2) Rang-1 Lineaire Dynamiek, waarbij deze dominante deelruimte lineair evolueert gedurende de training, wat nauwkeurige voorspellingen vanaf vroege checkpoints mogelijk maakt. Uitgebreide experimenten met 8 LLMs en 7 algoritmen valideren de generaliseerbaarheid van deze eigenschappen. Belangrijker nog, op basis van deze bevindingen stellen we AlphaRL voor, een plug-in versnellingsframework dat de uiteindelijke parameterupdate extrapoleert met behulp van een kort vroeg trainingsvenster, wat een versnelling tot 2,5 keer oplevert terwijl meer dan 96% van de redeneerprestaties behouden blijft, zonder extra modules of hyperparameterafstemming. Dit positioneert onze bevinding als een veelzijdig en praktisch hulpmiddel voor grootschalige RL, en opent een pad naar een principieel, interpreteerbaar en efficiënt trainingsparadigma voor LLMs.

English

Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.

Over de voorspelbaarheid van Reinforcement Learning-dynamiek voor Grote Taalmodellen

On Predictability of Reinforcement Learning Dynamics for Large Language Models

Samenvatting

Support