ChatPaper.aiChatPaper

길이 편향 없는 시퀀스 정책 최적화: 강화학습 기반 응답 생성에서의 응답 길이 변동성 규명 및 제어

Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

February 5, 2026
저자: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)을 대규모 언어 모델(LLM) 및 시각-언어 모델(VLM)에 최근 적용함으로써 복잡한 작업에 대한 추론 능력 향상에서 상당한 성공을 거두었습니다. RLVR 학습 과정에서 응답 길이의 증가는 종종 추론 능력 성장의 주요 요인으로 간주됩니다. 그러나 학습 과정에서 응답 길이의 변화 패턴은 서로 다른 RLVR 알고리즘 간에 현저한 차이를 보입니다. 이러한 변동에 대한 근본적인 설명을 제공하기 위해, 본 논문은 주류 RLVR 알고리즘의 구성 요소에 대한 심층 분석을 수행합니다. 우리는 응답 길이에 영향을 미치는 요인에 대한 이론적 분석을 제시하고 광범위한 실험을 통해 이론을 검증합니다. 이러한 이론적 결과를 바탕으로, 우리는 길이 편향이 제거된 시퀀스 정책 최적화(LUSPO) 알고리즘을 제안합니다. 구체적으로, 우리는 그룹 시퀀스 정책 최적화(GSPO)에 내재된 길이 편향을 수정하여 해당 손실 함수를 응답 길이에 대해 편향되지 않게 만들고, 이로 인해 응답 길이 붕괴 문제를 해결합니다. 우리는 수학적 추론 벤치마크와 다중 모달 추론 시나리오 전반에 걸쳐 광범위한 실험을 수행하며, LUSPO는 일관되게 우수한 성능을 달성했습니다. 실험 결과는 LUSPO가 GRPO 및 GSPO와 같은 기존 방법과 비교했을 때 새로운 최첨단 최적화 전략임을 입증합니다.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.
PDF453February 7, 2026