Optimización de Políticas de Secuencia sin Sesgo de Longitud: Revelando y Controlando la Variación en la Duración de Respuestas en RLVR
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
February 5, 2026
Autores: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI
Resumen
Las aplicaciones recientes de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a Modelos de Lenguaje a Gran Escala (LLM) y Modelos de Lenguaje Visual (VLM) han demostrado un éxito significativo en la mejora de las capacidades de razonamiento para tareas complejas. Durante el entrenamiento con RLVR, un aumento en la longitud de la respuesta suele considerarse un factor clave que contribuye al crecimiento de la capacidad de razonamiento. Sin embargo, los patrones de cambio en la longitud de la respuesta varían significativamente entre diferentes algoritmos de RLVR durante el proceso de entrenamiento. Para proporcionar una explicación fundamental de estas variaciones, este artículo realiza un análisis en profundidad de los componentes de los algoritmos de RLVR predominantes. Presentamos un análisis teórico de los factores que influyen en la longitud de la respuesta y validamos nuestra teoría mediante una extensa experimentación. Basándonos en estos hallazgos teóricos, proponemos el algoritmo de Optimización de Políticas de Secuencia sin Sesgo de Longitud (LUSPO). Específicamente, rectificamos el sesgo de longitud inherente a la Optimización de Políticas de Secuencia Grupal (GSPO), haciendo que su función de pérdida sea insesgada con respecto a la longitud de la respuesta y resolviendo así el problema del colapso en la longitud de la respuesta. Realizamos extensos experimentos en benchmarks de razonamiento matemático y escenarios de razonamiento multimodal, donde LUSPO logra consistentemente un rendimiento superior. Los resultados empíricos demuestran que LUSPO representa una estrategia de optimización novedosa y de vanguardia en comparación con métodos existentes como GRPO y GSPO.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.