ChatPaper.aiChatPaper

Otimização de Política de Sequência sem Viés de Comprimento: Revelando e Controlando a Variação do Comprimento da Resposta no RLVR

Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

February 5, 2026
Autores: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI

Resumo

As aplicações recentes de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR) em Modelos de Linguagem de Grande Escala (LLMs) e Modelos Visão-Linguagem (VLMs) têm demonstrado sucesso significativo no aprimoramento das capacidades de raciocínio para tarefas complexas. Durante o treinamento RLVR, o aumento no comprimento da resposta é frequentemente considerado um fator chave que contribui para o crescimento da capacidade de raciocínio. No entanto, os padrões de mudança no comprimento da resposta variam significativamente entre diferentes algoritmos RLVR durante o processo de treinamento. Para fornecer uma explicação fundamental para essas variações, este artigo realiza uma análise aprofundada dos componentes dos principais algoritmos RLVR. Apresentamos uma análise teórica dos fatores que influenciam o comprimento da resposta e validamos nossa teoria por meio de experimentação extensiva. Com base nessas descobertas teóricas, propomos o algoritmo de Otimização de Política de Sequência sem Viés de Comprimento (LUSPO). Especificamente, retificamos o viés de comprimento inerente à Otimização de Política de Sequência em Grupo (GSPO), tornando sua função de perda imparcial em relação ao comprimento da resposta e, assim, resolvendo o problema do colapso do comprimento da resposta. Realizamos experimentos extensos em benchmarks de raciocínio matemático e cenários de raciocínio multimodal, onde o LUSPO consistentemente alcança desempenho superior. Resultados empíricos demonstram que o LUSPO representa uma nova e state-of-the-art estratégia de otimização em comparação com métodos existentes como GRPO e GSPO.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.
PDF454February 7, 2026