長さバイアスなし系列方策最適化:RLVRにおける応答長変動の解明と制御
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
February 5, 2026
著者: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)の大規模言語モデル(LLM)および視覚言語モデル(VLM)への最近の応用は、複雑なタスクにおける推論能力の向上において顕著な成功を示している。RLVR訓練において、応答長の増加は推論能力の成長に寄与する主要因と見なされることが多い。しかし、訓練プロセスにおける応答長の変化パターンは、RLVRアルゴリズムによって大きく異なる。これらの変動を根本的に説明するため、本論文では主流のRLVRアルゴリズムの構成要素を詳細に分析する。応答長に影響を与える要因に関する理論的分析を提示し、大規模な実験を通じて理論を検証する。これらの理論的知見に基づき、我々は長さ不偏系列方策最適化(LUSPO)アルゴリズムを提案する。具体的には、グループ系列方策最適化(GSPO)に内在する長さバイアスを補正し、その損失関数を応答長に対して不偏とすることで、応答長の崩壊問題を解決する。数学的推論ベンチマークとマルチモーダル推論シナリオにおける広範な実験を実施し、LUSPOが一貫して優れた性能を達成することを示す。実験結果は、LUSPOがGRPOやGSPOなどの既存手法と比較して、新たな最先端の最適化戦略であることを実証している。
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.