Optimisation de politique de séquence sans biais de longueur : Révéler et contrôler la variation de la longueur des réponses dans l'apprentissage par renforcement pour la génération de texte
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
February 5, 2026
papers.authors: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI
papers.abstract
Les applications récentes de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) aux grands modèles de langage (LLM) et aux modèles vision-langage (VLM) ont démontré un succès significatif dans l'amélioration des capacités de raisonnement pour des tâches complexes. Durant l'entraînement RLVR, l'augmentation de la longueur des réponses est souvent considérée comme un facteur clé contribuant à la croissance de la capacité de raisonnement. Cependant, les profils d'évolution de la longueur des réponses varient considérablement selon les différents algorithmes RLVR au cours du processus d'entraînement. Pour fournir une explication fondamentale à ces variations, cet article procède à une analyse approfondie des composants des algorithmes RLVR dominants. Nous présentons une analyse théorique des facteurs influençant la longueur des réponses et validons notre théorie par des expérimentations approfondies. Sur la base de ces résultats théoriques, nous proposons l'algorithme d'optimisation de politique de séquence non biaisée par la longueur (LUSPO). Plus précisément, nous corrigeons le biais de longueur inhérent à l'optimisation de politique de séquence par groupe (GSPO), rendant sa fonction de perte non biaisée par rapport à la longueur des réponses et résolvant ainsi le problème de l'effondrement de la longueur des réponses. Nous menons des expériences approfondies sur des benchmarks de raisonnement mathématique et des scénarios de raisonnement multimodal, où LUSPO atteint constamment des performances supérieures. Les résultats empiriques démontrent que LUSPO représente une nouvelle stratégie d'optimisation de pointe par rapport aux méthodes existantes telles que GRPO et GSPO.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.