ChatPaper.aiChatPaper

検証可能な報酬を用いた強化学習におけるサンプル極性の再考

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

December 25, 2025
著者: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI

要旨

大規模推論モデル(LRM)は通常、推論能力を向上させるために検証可能な報酬を用いた強化学習(RLVR)によって訓練される。このパラダイムでは、ポリシーは正と負の自己生成ロールアウト(それぞれ異なるサンプル極性に対応する)の両方を用いて更新される。本論文では、これらのサンプル極性がRLVRの訓練ダイナミクスと振る舞いにどのように影響するかについて体系的な調査を行う。我々は、正サンプルが既存の正しい推論パターンを鋭敏化させる一方で、負サンプルは新たな推論経路の探索を促進することを発見した。さらに、サンプルレベルとトークンレベルの両方で正負サンプルのアドバンテージ値を調整することがRLVR訓練に与える影響を探る。これらの知見に基づき、我々は異なる極性に属するキートークンに対してアドバンテージ信号をより精密に割り当てる、適応的かつ非対称的なトークンレベルアドバンテージ形成法によるポリシー最適化手法、すなわちA3POを提案する。5つの推論ベンチマークによる実験は、本手法の有効性を実証している。
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
PDF01December 30, 2025