Sulla Prevedibilità delle Dinamiche di Apprendimento per Rinforzo nei Modelli Linguistici di Grande Scala
On Predictability of Reinforcement Learning Dynamics for Large Language Models
October 1, 2025
Autori: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang
cs.AI
Abstract
I recenti progressi nelle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) sono in gran parte guidati dall'apprendimento per rinforzo (RL), tuttavia le dinamiche sottostanti dei parametri durante l'addestramento RL rimangono poco comprese. Questo lavoro identifica due proprietà fondamentali degli aggiornamenti dei parametri indotti da RL negli LLM: (1) Dominanza di Rango-1, in cui il sottospazio singolare principale della matrice di aggiornamento dei parametri determina quasi completamente i miglioramenti nel ragionamento, recuperando oltre il 99% dei guadagni di prestazione; e (2) Dinamiche Lineari di Rango-1, in cui questo sottospazio dominante evolve linearmente durante l'addestramento, consentendo previsioni accurate dai checkpoint iniziali. Esperimenti estesi su 8 LLM e 7 algoritmi convalidano la generalizzabilità di queste proprietà. Ancora più importante, sulla base di queste scoperte, proponiamo AlphaRL, un framework di accelerazione plug-in che estrapola l'aggiornamento finale dei parametri utilizzando una breve finestra iniziale di addestramento, ottenendo un aumento di velocità fino a 2,5 volte mantenendo >96% delle prestazioni di ragionamento senza moduli aggiuntivi o ottimizzazione degli iperparametri. Questo posiziona la nostra scoperta come uno strumento versatile e pratico per il RL su larga scala, aprendo una strada verso un paradigma di addestramento per LLM basato su principi, interpretabile ed efficiente.
English
Recent advances in reasoning capabilities of large language models (LLMs) are
largely driven by reinforcement learning (RL), yet the underlying parameter
dynamics during RL training remain poorly understood. This work identifies two
fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1
Dominance, where the top singular subspace of the parameter update matrix
nearly fully determines reasoning improvements, recovering over 99\% of
performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace
evolves linearly throughout training, enabling accurate prediction from early
checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the
generalizability of these properties. More importantly, based on these
findings, we propose AlphaRL, a plug-in acceleration framework that
extrapolates the final parameter update using a short early training window,
achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning
performance without extra modules or hyperparameter tuning. This positions our
finding as a versatile and practical tool for large-scale RL, opening a path
toward principled, interpretable, and efficient training paradigm for LLMs.