ChatPaper.aiChatPaper

Repenser la polarité des échantillons dans l'apprentissage par renforcement avec des récompenses vérifiables

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

December 25, 2025
papers.authors: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI

papers.abstract

Les grands modèles de raisonnement (LRM) sont généralement entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) pour améliorer leurs capacités de raisonnement. Dans ce paradigme, les politiques sont mises à jour en utilisant des déploiements auto-générés positifs et négatifs, qui correspondent à des polarités d'échantillons distinctes. Dans cet article, nous menons une investigation systématique sur la manière dont ces polarités d'échantillons affectent la dynamique d'entraînement et les comportements du RLVR. Nous constatons que les échantillons positifs affûtent les schémas de raisonnement corrects existants, tandis que les échantillons négatifs encouragent l'exploration de nouvelles trajectoires de raisonnement. Nous explorons ensuite comment l'ajustement des valeurs d'avantage des échantillons positifs et négatifs, à la fois au niveau de l'échantillon et au niveau du token, affecte l'entraînement RLVR. Sur la base de ces observations, nous proposons une méthode de Façonnage Adaptatif et Asymétrique de l'Avantage au niveau token pour l'Optimisation de Politique, nommée A3PO, qui alloue plus précisément les signaux d'avantage aux tokens clés selon les différentes polarités. Les expériences menées sur cinq benchmarks de raisonnement démontrent l'efficacité de notre approche.
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
PDF01December 30, 2025