Ottimizzazione della Politica di Sequenza Imparziale sulla Lunghezza: Rivelazione e Controllo della Variazione della Lunghezza della Risposta in RLVR
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
February 5, 2026
Autori: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI
Abstract
Le recenti applicazioni del Reinforcement Learning con Ricompense Verificabili (RLVR) a Large Language Model (LLM) e Vision-Language Model (VLM) hanno dimostrato un successo significativo nel potenziare le capacità di ragionamento per compiti complessi. Durante l'addestramento RLVR, un aumento della lunghezza della risposta è spesso considerato un fattore chiave che contribuisce alla crescita dell'abilità di ragionamento. Tuttavia, gli andamenti della variazione della lunghezza della risposta differiscono in modo significativo tra i diversi algoritmi RLVR durante il processo di addestramento. Per fornire una spiegazione fondamentale di queste variazioni, questo articolo conduce un'analisi approfondita dei componenti degli algoritmi RLVR mainstream. Presentiamo un'analisi teorica dei fattori che influenzano la lunghezza della risposta e convalidiamo la nostra teoria attraverso un'ampia sperimentazione. Sulla base di questi risultati teorici, proponiamo l'algoritmo Length-Unbiased Sequence Policy Optimization (LUSPO). Nello specifico, correggiamo il bias di lunghezza insito nel Group Sequence Policy Optimization (GSPO), rendendo la sua funzione di loss unbiased rispetto alla lunghezza della risposta e risolvendo così il problema del collasso della lunghezza della risposta. Eseguiamo ampi esperimenti su benchmark di ragionamento matematico e scenari di ragionamento multimodale, in cui LUSPO raggiunge costantemente prestazioni superiori. I risultati empirici dimostrano che LUSPO rappresenta una strategia di ottimizzazione nuova e allo stato dell'arte rispetto a metodi esistenti come GRPO e GSPO.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.