Over de voorspelbaarheid van Reinforcement Learning-dynamiek voor Grote Taalmodellen
On Predictability of Reinforcement Learning Dynamics for Large Language Models
October 1, 2025
Auteurs: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI
Samenvatting
Recente vooruitgang in de redeneervaardigheden van grote taalmodellen (LLMs) wordt grotendeels aangedreven door reinforcement learning (RL), maar de onderliggende parameterdynamiek tijdens RL-training blijft slecht begrepen. Dit werk identificeert twee fundamentele eigenschappen van RL-geïnduceerde parameterupdates in LLMs: (1) Rang-1 Dominantie, waarbij de top singuliere deelruimte van de parameterupdate-matrix bijna volledig de verbeteringen in redenering bepaalt, wat meer dan 99% van de prestatieverbeteringen verklaart; en (2) Rang-1 Lineaire Dynamiek, waarbij deze dominante deelruimte lineair evolueert gedurende de training, wat nauwkeurige voorspellingen vanaf vroege checkpoints mogelijk maakt. Uitgebreide experimenten met 8 LLMs en 7 algoritmen valideren de generaliseerbaarheid van deze eigenschappen. Belangrijker nog, op basis van deze bevindingen stellen we AlphaRL voor, een plug-in versnellingsframework dat de uiteindelijke parameterupdate extrapoleert met behulp van een kort vroeg trainingsvenster, wat een versnelling tot 2,5 keer oplevert terwijl meer dan 96% van de redeneerprestaties behouden blijft, zonder extra modules of hyperparameterafstemming. Dit positioneert onze bevinding als een veelzijdig en praktisch hulpmiddel voor grootschalige RL, en opent een pad naar een principieel, interpreteerbaar en efficiënt trainingsparadigma voor LLMs.
English
Recent advances in reasoning capabilities of large language models (LLMs) are
largely driven by reinforcement learning (RL), yet the underlying parameter
dynamics during RL training remain poorly understood. This work identifies two
fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1
Dominance, where the top singular subspace of the parameter update matrix
nearly fully determines reasoning improvements, recovering over 99\% of
performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace
evolves linearly throughout training, enabling accurate prediction from early
checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the
generalizability of these properties. More importantly, based on these
findings, we propose AlphaRL, a plug-in acceleration framework that
extrapolates the final parameter update using a short early training window,
achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning
performance without extra modules or hyperparameter tuning. This positions our
finding as a versatile and practical tool for large-scale RL, opening a path
toward principled, interpretable, and efficient training paradigm for LLMs.