Sur la prévisibilité des dynamiques d'apprentissage par renforcement pour les modèles de langage à grande échelle

papers.abstract

Les récents progrès dans les capacités de raisonnement des grands modèles de langage (LLMs) sont largement motivés par l'apprentissage par renforcement (RL), mais la dynamique sous-jacente des paramètres pendant l'entraînement RL reste mal comprise. Ce travail identifie deux propriétés fondamentales des mises à jour de paramètres induites par le RL dans les LLMs : (1) la Dominance de Rang-1, où le sous-espace singulier supérieur de la matrice de mise à jour des paramètres détermine presque entièrement les améliorations du raisonnement, récupérant plus de 99 % des gains de performance ; et (2) la Dynamique Linéaire de Rang-1, où ce sous-espace dominant évolue linéairement tout au long de l'entraînement, permettant une prédiction précise à partir des premiers points de contrôle. Des expériences approfondies sur 8 LLMs et 7 algorithmes valident la généralisabilité de ces propriétés. Plus important encore, sur la base de ces découvertes, nous proposons AlphaRL, un cadre d'accélération plug-in qui extrapole la mise à jour finale des paramètres en utilisant une courte fenêtre d'entraînement précoce, atteignant jusqu'à 2,5 fois d'accélération tout en conservant plus de 96 % de la performance de raisonnement sans modules supplémentaires ou réglage d'hyperparamètres. Cela positionne notre découverte comme un outil polyvalent et pratique pour le RL à grande échelle, ouvrant une voie vers un paradigme d'entraînement des LLMs fondé sur des principes, interprétable et efficace.

English

Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.

Sur la prévisibilité des dynamiques d'apprentissage par renforcement pour les modèles de langage à grande échelle

On Predictability of Reinforcement Learning Dynamics for Large Language Models

papers.abstract

Support