Modellizzazione delle Traiettorie di Ottimizzazione a Basso Rango per l'Accelerazione RLVR di LLM

Abstract

Recentemente, il potenziamento dell'apprendimento per rinforzo con ricompense verificabili (RLVR) per i grandi modelli linguistici (LLM) è emerso come un paradigma di addestramento efficace per migliorare significativamente le capacità del modello. Questo approccio richiede di guidare il modello a compiere un'ampia esplorazione e apprendimento, comportando un sovraccarico computazionale sostanziale che rappresenta una sfida chiave. Per ridurre il numero di step di addestramento, i lavori precedenti effettuano un'estrapolazione lineare dei parametri del modello. Tuttavia, la dinamica degli aggiornamenti dei parametri durante l'addestramento RLVR rimane insufficientemente compresa. Per indagare ulteriormente l'evoluzione degli LLM durante l'addestramento RLVR, abbiamo condotto esperimenti empirici e riscontrato che il sottospazio di rango 1 del modello non evolve linearmente, e la sua dominanza sui parametri originali viene ulteriormente amplificata durante l'addestramento LoRA. Sulla base di queste osservazioni, proponiamo l'Estrapolazione Nonlineare delle traiettorie a basso rango (NExt), un framework innovativo che modella ed estrapola le traiettorie dei parametri a basso rango in maniera non lineare. Nello specifico, addestriamo inizialmente il modello utilizzando LoRA ed estraiamo il sottospazio di rango 1 delle differenze parametriche in più step di addestramento, che viene poi utilizzato per la successiva estrapolazione non lineare. Successivamente, utilizziamo il sottospazio di rango 1 estratto per addestrare un predittore, in grado di modellare la traiettoria degli aggiornamenti parametrici durante l'RLVR, e quindi eseguiamo il processo di "previsione-estensione" per estrapolare i parametri del modello, ottenendo così l'accelerazione dell'RLVR. Per studiare e comprendere ulteriormente NExt, abbiamo condotto esperimenti completi che dimostrano l'efficacia e la robustezza del metodo. Il nostro metodo riduce il sovraccarico computazionale di circa il 37,5%, mantenendo al contempo la compatibilità con un'ampia gamma di algoritmi e task RLVR. Rilasciamo il nostro codice all'indirizzo https://github.com/RUCAIBox/NExt.

English

Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, which requires guiding the model to perform extensive exploration and learning, leading to substantial computational overhead and becoming a key challenge. To reduce the number of training steps, Prior work performs linear extrapolation of model parameters. However, the dynamics of model parameter updates during RLVR training remain insufficiently understood. To further investigate the evolution of LLMs during RLVR training, we conduct empirical experiments and find that the rank-1 subspace of the model does not evolve linearly, and its dominance over the original parameters is further amplified during LoRA training. Based on the above insights, we propose the Nonlinear Extrapolation of low-rank trajectories (NExt), a novel framework that models and extrapolates low-rank parameter trajectories in a nonlinear manner. Concretely, we first train the model using LoRA and extract the rank-1 subspace of parameter differences at multiple training steps, which is then used for the subsequent nonlinear extrapolation. Afterward, we utilized the extracted rank-1 subspace to train a predictor, which can model the trajectory of parameter updates during RLVR, and then perform the predict-extend process to extrapolate model parameters, achieving the acceleration of RLVR. To further study and understand NExt, we conduct comprehensive experiments that demonstrate the effectiveness and robustness of the method. Our method reduces computational overhead by approximately 37.5\% while remaining compatible with a wide range of RLVR algorithms and tasks. We release our code in https://github.com/RUCAIBox/NExt.

Modellizzazione delle Traiettorie di Ottimizzazione a Basso Rango per l'Accelerazione RLVR di LLM

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Abstract

Support