ChatPaper.aiChatPaper

Переосмысление полярности выборок в обучении с подкреплением с верифицируемыми вознаграждениями

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

December 25, 2025
Авторы: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI

Аннотация

Крупные модели рассуждений (LRM) обычно обучаются с использованием обучения с подкреплением с верифицируемой наградой (RLVR) для улучшения их способностей к рассуждению. В этой парадигме политики обновляются с использованием как позитивных, так и негативных самостоятельно сгенерированных траекторий (rollouts), которые соответствуют различной полярности выборок. В данной статье мы проводим систематическое исследование того, как эта полярность выборок влияет на динамику обучения и поведение в RLVR. Мы обнаруживаем, что позитивные выборки заостряют существующие корректные паттерны рассуждений, в то время как негативные выборки стимулируют исследование новых путей рассуждений. Мы также исследуем, как корректировка значений преимущества (advantage) для позитивных и негативных выборок как на уровне выборки, так и на уровне токена влияет на обучение RLVR. На основе этих наблюдений мы предлагаем метод адаптивного и асимметричного формирования преимущества на уровне токенов для оптимизации политики, названный A3PO, который более точно распределяет сигналы преимущества между ключевыми токенами для разных полярностей. Эксперименты на пяти тестовых наборах для проверки рассуждений демонстрируют эффективность нашего подхода.
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
PDF01December 30, 2025