Длина-нейтральная оптимизация последовательностной политики: выявление и управление вариацией длины ответов в RLVR
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
February 5, 2026
Авторы: Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
cs.AI
Аннотация
Недавнее применение обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) к большим языковым моделям (LLM) и визуально-языковым моделям (VLM) продемонстрировало значительный успех в улучшении способностей к рассуждению при выполнении сложных задач. В процессе обучения RLVR увеличение длины ответа часто рассматривается как ключевой фактор, способствующий развитию способности к рассуждению. Однако характер изменений длины ответа существенно различается в зависимости от алгоритмов RLVR в ходе обучения. Для предоставления фундаментального объяснения этим вариациям в данной статье проводится углубленный анализ компонентов основных алгоритмов RLVR. Мы представляем теоретический анализ факторов, влияющих на длину ответа, и подтверждаем нашу теорию с помощью обширного экспериментального исследования. На основе этих теоретических выводов мы предлагаем алгоритм оптимизации последовательностной политики без смещения по длине (LUSPO). В частности, мы корректируем смещение по длине, присущее оптимизации групповой последовательностной политики (GSPO), делая её функцию потерь несмещенной относительно длины ответа и тем самым решая проблему коллапса длины ответа. Мы проводим масштабные эксперименты на наборах данных для математических рассуждений и в сценариях мультимодальных рассуждений, где LUSPO стабильно демонстрирует превосходящие результаты. Эмпирические результаты показывают, что LUSPO представляет собой новую, передовую стратегию оптимизации по сравнению с существующими методами, такими как GRPO и GSPO.
English
Recent applications of Reinforcement Learning with Verifiable Rewards (RLVR) to Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated significant success in enhancing reasoning capabilities for complex tasks. During RLVR training, an increase in response length is often regarded as a key factor contributing to the growth of reasoning ability. However, the patterns of change in response length vary significantly across different RLVR algorithms during the training process. To provide a fundamental explanation for these variations, this paper conducts an in-depth analysis of the components of mainstream RLVR algorithms. We present a theoretical analysis of the factors influencing response length and validate our theory through extensive experimentation. Building upon these theoretical findings, we propose the Length-Unbiased Sequence Policy Optimization (LUSPO) algorithm. Specifically, we rectify the length bias inherent in Group Sequence Policy Optimization (GSPO), rendering its loss function unbiased with respect to response length and thereby resolving the issue of response length collapse. We conduct extensive experiments across mathematical reasoning benchmarks and multimodal reasoning scenarios, where LUSPO consistently achieves superior performance. Empirical results demonstrate that LUSPO represents a novel, state-of-the-art optimization strategy compared to existing methods such as GRPO and GSPO.