Sulla Prevedibilità delle Dinamiche di Apprendimento per Rinforzo nei Modelli Linguistici di Grande Scala

Abstract

I recenti progressi nelle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) sono in gran parte guidati dall'apprendimento per rinforzo (RL), tuttavia le dinamiche sottostanti dei parametri durante l'addestramento RL rimangono poco comprese. Questo lavoro identifica due proprietà fondamentali degli aggiornamenti dei parametri indotti da RL negli LLM: (1) Dominanza di Rango-1, in cui il sottospazio singolare principale della matrice di aggiornamento dei parametri determina quasi completamente i miglioramenti nel ragionamento, recuperando oltre il 99% dei guadagni di prestazione; e (2) Dinamiche Lineari di Rango-1, in cui questo sottospazio dominante evolve linearmente durante l'addestramento, consentendo previsioni accurate dai checkpoint iniziali. Esperimenti estesi su 8 LLM e 7 algoritmi convalidano la generalizzabilità di queste proprietà. Ancora più importante, sulla base di queste scoperte, proponiamo AlphaRL, un framework di accelerazione plug-in che estrapola l'aggiornamento finale dei parametri utilizzando una breve finestra iniziale di addestramento, ottenendo un aumento di velocità fino a 2,5 volte mantenendo >96% delle prestazioni di ragionamento senza moduli aggiuntivi o ottimizzazione degli iperparametri. Questo posiziona la nostra scoperta come uno strumento versatile e pratico per il RL su larga scala, aprendo una strada verso un paradigma di addestramento per LLM basato su principi, interpretabile ed efficiente.

English

Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.

Sulla Prevedibilità delle Dinamiche di Apprendimento per Rinforzo nei Modelli Linguistici di Grande Scala

On Predictability of Reinforcement Learning Dynamics for Large Language Models

Abstract

Support