ChatPaper.aiChatPaper

Zur Vorhersagbarkeit der Dynamik von Reinforcement Learning bei großen Sprachmodellen

On Predictability of Reinforcement Learning Dynamics for Large Language Models

October 1, 2025
papers.authors: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI

papers.abstract

Jüngste Fortschritte in den Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern werden maßgeblich durch Reinforcement Learning (RL) vorangetrieben, doch die zugrunde liegende Parameterdynamik während des RL-Trainings bleibt weitgehend unverstanden. Diese Arbeit identifiziert zwei grundlegende Eigenschaften von RL-induzierten Parameteraktualisierungen in LLMs: (1) Rang-1-Dominanz, bei der der top-singuläre Unterraum der Parameteraktualisierungsmatrix die Verbesserungen im logischen Schlussfolgern nahezu vollständig bestimmt und über 99 % der Leistungssteigerungen wiedergewinnt; und (2) Rang-1-lineare Dynamik, bei der sich dieser dominante Unterraum während des Trainings linear entwickelt, was eine genaue Vorhersage aus frühen Checkpoints ermöglicht. Umfangreiche Experimente mit 8 LLMs und 7 Algorithmen bestätigen die Allgemeingültigkeit dieser Eigenschaften. Noch wichtiger ist, dass wir auf Basis dieser Erkenntnisse AlphaRL vorschlagen, ein Plug-in-Beschleunigungsframework, das die endgültige Parameteraktualisierung durch ein kurzes frühes Trainingsfenster extrapoliert und dabei eine bis zu 2,5-fache Beschleunigung erreicht, während mehr als 96 % der Schlussfolgerungsleistung ohne zusätzliche Module oder Hyperparameter-Tuning erhalten bleiben. Dies positioniert unsere Erkenntnisse als ein vielseitiges und praktisches Werkzeug für groß angelegtes RL und eröffnet einen Weg zu einem prinzipiellen, interpretierbaren und effizienten Trainingsparadigma für LLMs.
English
Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.
PDF82October 2, 2025