Längenneutrale Sequenz-Policy-Optimierung: Aufdeckung und Kontrolle von Antwortlängenvariationen in RLVR
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
February 5, 2026
papers.authors: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI
papers.abstract
Jüngste Anwendungen von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) auf große Sprachmodelle (LLMs) und multimodale Vision-Sprach-Modelle (VLMs) haben bedeutende Erfolge bei der Verbesserung der Reasoning-Fähigkeiten für komplexe Aufgaben gezeigt. Während des RLVR-Trainings wird eine Zunahme der Antwortlänge oft als ein Schlüsselfaktor für das Wachstum der Reasoning-Fähigkeit angesehen. Allerdings variieren die Veränderungsmuster der Antwortlänge während des Trainingsprozesses erheblich zwischen verschiedenen RLVR-Algorithmen. Um eine grundlegende Erklärung für diese Variationen zu liefern, führt diese Arbeit eine tiefgehende Analyse der Komponenten gängiger RLVR-Algorithmen durch. Wir präsentieren eine theoretische Analyse der Faktoren, die die Antwortlänge beeinflussen, und validieren unsere Theorie durch umfangreiche Experimente. Aufbauend auf diesen theoretischen Erkenntnissen schlagen wir den Längen-unvoreingenommenen Sequence Policy Optimization (LUSPO)-Algorithmus vor. Konkret korrigieren wir die in Group Sequence Policy Optimization (GSPO) inhärente Längenverzerrung, machen deren Verlustfunktion unvoreingenommen gegenüber der Antwortlänge und lösen damit das Problem des Antwortlängen-Kollapses. Wir führen umfangreiche Experimente mit mathematischen Reasoning-Benchmarks und multimodalen Reasoning-Szenarien durch, bei denen LUSPO konsequent überlegene Leistung erzielt. Empirische Ergebnisse zeigen, dass LUSPO im Vergleich zu bestehenden Methoden wie GRPO und GSPO eine neuartige, state-of-the-art Optimierungsstrategie darstellt.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.