大規模言語モデルの強化学習ベース価値表現高速化のための低ランク最適化軌道モデリング
Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration
April 13, 2026
著者: Zhipeng Chen, Tao Qian, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
要旨
最近、検証可能な報酬を用いた強化学習(RLVR)による大規模言語モデル(LLM)のスケーリングが、モデル能力を大幅に改善する効果的な学習パラダイムとして登場している。このパラダイムでは、モデルに大規模な探索と学習を実行させる必要があり、結果として多大な計算コストが生じ、主要な課題となっている。学習ステップ数を削減するため、従来の研究ではモデルパラメータの線形外挿が行われてきた。しかし、RLVR訓練中のモデルパラメータ更新のダイナミクスは、未だ十分に解明されていない。RLVR訓練中のLLMの進化をさらに調査するため、我々は実証実験を行い、モデルのrank-1部分空間は線形に進化せず、その元のパラメータに対する優位性がLoRA訓練中にさらに増幅されることを発見した。上記の知見に基づき、我々は低ランクパラメータ軌道の非線形外挿(NExt)という新しいフレームワークを提案する。これは低ランクパラメータ軌道を非線形にモデル化し外挿するものである。具体的には、まずLoRAを用いてモデルを訓練し、複数の訓練ステップにおけるパラメータ差分のrank-1部分空間を抽出する。これを後の非線形外挿に用いる。その後、抽出されたrank-1部分空間を用いて予測器を訓練し、RLVR中のパラメータ更新軌道をモデル化する。次に、予測-拡張プロセスを実行してモデルパラメータを外挿し、RLVRの加速を達成する。NExtをさらに研究し理解するため、本手法の有効性と頑健性を実証する包括的な実験を行った。我々の手法は、幅広いRLVRアルゴリズムやタスクとの互換性を保ちながら、計算コストを約37.5%削減する。コードはhttps://github.com/RUCAIBox/NExt で公開している。
English
Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, which requires guiding the model to perform extensive exploration and learning, leading to substantial computational overhead and becoming a key challenge. To reduce the number of training steps, Prior work performs linear extrapolation of model parameters. However, the dynamics of model parameter updates during RLVR training remain insufficiently understood. To further investigate the evolution of LLMs during RLVR training, we conduct empirical experiments and find that the rank-1 subspace of the model does not evolve linearly, and its dominance over the original parameters is further amplified during LoRA training. Based on the above insights, we propose the Nonlinear Extrapolation of low-rank trajectories (NExt), a novel framework that models and extrapolates low-rank parameter trajectories in a nonlinear manner. Concretely, we first train the model using LoRA and extract the rank-1 subspace of parameter differences at multiple training steps, which is then used for the subsequent nonlinear extrapolation. Afterward, we utilized the extracted rank-1 subspace to train a predictor, which can model the trajectory of parameter updates during RLVR, and then perform the predict-extend process to extrapolate model parameters, achieving the acceleration of RLVR. To further study and understand NExt, we conduct comprehensive experiments that demonstrate the effectiveness and robustness of the method. Our method reduces computational overhead by approximately 37.5\% while remaining compatible with a wide range of RLVR algorithms and tasks. We release our code in https://github.com/RUCAIBox/NExt.