Neubewertung der Probenpolarität in Reinforcement Learning mit verifizierbaren Belohnungen
Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards
December 25, 2025
papers.authors: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) werden typischerweise mit Reinforcement Learning mit verifizierbarer Belohnung (RLVR) trainiert, um ihre Reasoning-Fähigkeiten zu verbessern. In diesem Paradigma werden Policy-Änderungen sowohl durch positive als auch negative selbstgenerierte Rollouts vorgenommen, die unterschiedlichen Stichprobenpolaritäten entsprechen. In diesem Papier liefern wir eine systematische Untersuchung darüber, wie diese Stichprobenpolaritäten die RLVR-Trainingsdynamik und -Verhalten beeinflussen. Wir stellen fest, dass positive Stichproben bestehende korrekte Reasoning-Muster schärfen, während negative Stichproben die Exploration neuer Reasoning-Pfade fördern. Wir untersuchen weiterhin, wie die Anpassung der Advantage-Werte positiver und negativer Stichproben sowohl auf Stichproben- als auch auf Token-Ebene das RLVR-Training beeinflusst. Aufbauend auf diesen Erkenntnissen schlagen wir eine adaptive und asymmetrische Advantage-Formung auf Token-Ebene für die Policy-Optimierung vor, genannt A3PO, die Advantage-Signale präziser Schlüsseltokens unterschiedlicher Polaritäten zuordnet. Experimente über fünf Reasoning-Benchmarks demonstrieren die Wirksamkeit unseres Ansatzes.
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.