Sobre la Predictibilidad de la Dinámica del Aprendizaje por Refuerzo en Modelos de Lenguaje a Gran Escala
On Predictability of Reinforcement Learning Dynamics for Large Language Models
October 1, 2025
Autores: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI
Resumen
Los avances recientes en las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están impulsados en gran medida por el aprendizaje por refuerzo (RL, por sus siglas en inglés); sin embargo, la dinámica subyacente de los parámetros durante el entrenamiento con RL sigue siendo poco comprendida. Este trabajo identifica dos propiedades fundamentales de las actualizaciones de parámetros inducidas por RL en LLMs: (1) Dominancia de Rango 1, donde el subespacio singular principal de la matriz de actualización de parámetros determina casi por completo las mejoras en el razonamiento, recuperando más del 99% de las ganancias de rendimiento; y (2) Dinámica Lineal de Rango 1, donde este subespacio dominante evoluciona linealmente durante el entrenamiento, permitiendo predicciones precisas a partir de puntos de control tempranos. Experimentos exhaustivos en 8 LLMs y 7 algoritmos validan la generalizabilidad de estas propiedades. Más importante aún, basándonos en estos hallazgos, proponemos AlphaRL, un marco de aceleración complementario que extrapola la actualización final de parámetros utilizando una ventana temprana corta de entrenamiento, logrando una aceleración de hasta 2.5 veces mientras se conserva más del 96% del rendimiento de razonamiento sin módulos adicionales o ajuste de hiperparámetros. Esto posiciona nuestro descubrimiento como una herramienta versátil y práctica para el RL a gran escala, abriendo un camino hacia un paradigma de entrenamiento para LLMs que sea fundamentado, interpretable y eficiente.
English
Recent advances in reasoning capabilities of large language models (LLMs) are
largely driven by reinforcement learning (RL), yet the underlying parameter
dynamics during RL training remain poorly understood. This work identifies two
fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1
Dominance, where the top singular subspace of the parameter update matrix
nearly fully determines reasoning improvements, recovering over 99\% of
performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace
evolves linearly throughout training, enabling accurate prediction from early
checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the
generalizability of these properties. More importantly, based on these
findings, we propose AlphaRL, a plug-in acceleration framework that
extrapolates the final parameter update using a short early training window,
achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning
performance without extra modules or hyperparameter tuning. This positions our
finding as a versatile and practical tool for large-scale RL, opening a path
toward principled, interpretable, and efficient training paradigm for LLMs.