ChatPaper.aiChatPaper

검증 가능한 보상과 함께 강화 학습에서 샘플 극성 재고

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

December 25, 2025
저자: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI

초록

대규모 추론 모델(LRM)은 일반적으로 추론 능력을 향상시키기 위해 검증 가능한 보상을 활용한 강화 학습(RLVR)으로 훈련됩니다. 이러한 패러다임에서는 서로 다른 샘플 극성에 해당하는 긍정적 및 부정적 자가 생성 롤아웃을 모두 사용하여 정책을 업데이트합니다. 본 논문에서는 이러한 샘플 극성이 RLVR 훈련 동역학과 행동에 미치는 영향을 체계적으로 조사합니다. 우리는 긍정 샘플이 기존의 올바른 추론 패턴을 선명하게 만드는 반면, 부정 샘플은 새로운 추론 경로 탐색을 촉진한다는 사실을 발견했습니다. 또한 샘플 수준과 토큰 수준에서 긍정 및 부정 샘플의 어드밴티지 값을 조정하는 것이 RLVR 훈련에 어떤 영향을 미치는지 추가로 탐구합니다. 이러한 통찰을 바탕으로, 우리는 서로 다른 극성에 걸쳐 핵심 토큰에 어드밴티지 신호를 더 정밀하게 할당하는 적응형 비대칭 토큰 수준 어드밴티지 형성 기법을 통한 정책 최적화 방법, 즉 A3PO를 제안합니다. 다섯 가지 추론 벤치마크에서 진행된 실험을 통해 우리 접근법의 효과성을 입증합니다.
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
PDF01December 30, 2025