ChatPaper.aiChatPaper

Lengte-Onbevooroordeelde Sequentiële Policy-Optimalisatie: Het Blootleggen en Beheersen van Responslengtevariatie in RLVR

Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

February 5, 2026
Auteurs: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI

Samenvatting

Recente toepassingen van Reinforcement Learning met Verifieerbare Beloningen (RLVR) op Large Language Models (LLM's) en Vision-Language Models (VLM's) hebben aanzienlijk succes aangetoond bij het verbeteren van redeneervermogens voor complexe taken. Tijdens RLVR-training wordt een toename van de antwoordlengte vaak beschouwd als een cruciale factor die bijdraagt aan de groei van het redeneervermogen. De veranderingspatronen in antwoordlengte verschillen echter aanzienlijk tussen verschillende RLVR-algoritmen tijdens het trainingsproces. Om een fundamentele verklaring voor deze variaties te bieden, voert dit artikel een diepgaande analyse uit van de componenten van gangbare RLVR-algoritmen. Wij presenteren een theoretische analyse van de factoren die de antwoordlengte beïnvloeden en valideren onze theorie door middel van uitgebreide experimenten. Gebaseerd op deze theoretische inzichten, stellen wij het Lengte-Onbevooroordeelde Sequentiebeleidsoptimalisatie (LUSPO) algoritme voor. Concreet corrigeren wij de lengtevooroordelen inherent aan Group Sequence Policy Optimization (GSPO), waardoor diens verliesfunctie onbevooroordeeld wordt ten opzichte van antwoordlengte en zodoende het probleem van antwoordlengte-instorting wordt opgelost. Wij voeren uitgebreide experimenten uit op wiskundige redeneerbenchmarks en multimodale redeneerscenario's, waarbij LUSPO consequent superieure prestaties behaalt. Empirische resultaten tonen aan dat LUSPO een nieuwe, state-of-the-art optimalisatiestrategie vertegenwoordigt in vergelijking met bestaande methoden zoals GRPO en GSPO.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.
PDF454February 7, 2026