ChatPaper.aiChatPaper

Herziening van Steekproefpolariteit in Versterkingsleren met Verifieerbare Beloningen

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

December 25, 2025
Auteurs: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI

Samenvatting

Grote redeneermodellen (LRM's) worden doorgaans getraind met reinforcement learning met verifieerbare beloning (RLVR) om hun redeneervermogen te verbeteren. In dit paradigma worden beleidsregels bijgewerkt met behulp van zowel positieve als negatieve zelf gegenereerde rollouts, die overeenkomen met verschillende steekproefpolariteiten. In dit artikel geven we een systematisch onderzoek naar hoe deze steekproefpolariteiten de RLVR-trainingsdynamiek en -gedragingen beïnvloeden. We ontdekken dat positieve steekproeven bestaande correcte redeneerpatronen aanscherpen, terwijl negatieve steekproeven exploratie van nieuwe redeneerpaden stimuleren. We onderzoeken verder hoe aanpassing van de advantage-waarden van positieve en negatieve steekproeven op zowel steekproefniveau als tokenniveau de RLVR-training beïnvloedt. Gebaseerd op deze inzichten stellen we een adaptieve en asymmetrische advantage-vorming op tokenniveau voor voor beleidsoptimalisatie, genaamd A3PO, die advantage-signalen nauwkeuriger toewijst aan cruciale tokens bij verschillende polariteiten. Experimenten over vijf redeneerbenchmarks demonstreren de effectiviteit van onze aanpak.
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
PDF01December 30, 2025