Sur la prévisibilité des dynamiques d'apprentissage par renforcement pour les modèles de langage à grande échelle
On Predictability of Reinforcement Learning Dynamics for Large Language Models
October 1, 2025
papers.authors: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI
papers.abstract
Les récents progrès dans les capacités de raisonnement des grands modèles de langage (LLMs) sont largement motivés par l'apprentissage par renforcement (RL), mais la dynamique sous-jacente des paramètres pendant l'entraînement RL reste mal comprise. Ce travail identifie deux propriétés fondamentales des mises à jour de paramètres induites par le RL dans les LLMs : (1) la Dominance de Rang-1, où le sous-espace singulier supérieur de la matrice de mise à jour des paramètres détermine presque entièrement les améliorations du raisonnement, récupérant plus de 99 % des gains de performance ; et (2) la Dynamique Linéaire de Rang-1, où ce sous-espace dominant évolue linéairement tout au long de l'entraînement, permettant une prédiction précise à partir des premiers points de contrôle. Des expériences approfondies sur 8 LLMs et 7 algorithmes valident la généralisabilité de ces propriétés. Plus important encore, sur la base de ces découvertes, nous proposons AlphaRL, un cadre d'accélération plug-in qui extrapole la mise à jour finale des paramètres en utilisant une courte fenêtre d'entraînement précoce, atteignant jusqu'à 2,5 fois d'accélération tout en conservant plus de 96 % de la performance de raisonnement sans modules supplémentaires ou réglage d'hyperparamètres. Cela positionne notre découverte comme un outil polyvalent et pratique pour le RL à grande échelle, ouvrant une voie vers un paradigme d'entraînement des LLMs fondé sur des principes, interprétable et efficace.
English
Recent advances in reasoning capabilities of large language models (LLMs) are
largely driven by reinforcement learning (RL), yet the underlying parameter
dynamics during RL training remain poorly understood. This work identifies two
fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1
Dominance, where the top singular subspace of the parameter update matrix
nearly fully determines reasoning improvements, recovering over 99\% of
performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace
evolves linearly throughout training, enabling accurate prediction from early
checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the
generalizability of these properties. More importantly, based on these
findings, we propose AlphaRL, a plug-in acceleration framework that
extrapolates the final parameter update using a short early training window,
achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning
performance without extra modules or hyperparameter tuning. This positions our
finding as a versatile and practical tool for large-scale RL, opening a path
toward principled, interpretable, and efficient training paradigm for LLMs.