Ripensare la Polarità del Campionamento nell’Apprendimento per Rinforzo con Ricompense Verificabili

Abstract

I grandi modelli di ragionamento (LRM) vengono tipicamente addestrati utilizzando l'apprendimento per rinforzo con ricompensa verificabile (RLVR) per potenziare le loro capacità deduttive. In questo paradigma, le politiche vengono aggiornate utilizzando sia rollout auto-generati positivi che negativi, i quali corrispondono a polarità campionarie distinte. In questo articolo, forniamo un'indagine sistematica su come queste polarità campionarie influenzino le dinamiche e i comportamenti dell'addestramento RLVR. Scopriamo che i campioni positivi affinano i modelli di ragionamento corretti esistenti, mentre i campioni negativi incoraggiano l'esplorazione di nuovi percorsi deduttivi. Esploriamo ulteriormente come la regolazione dei valori di vantaggio dei campioni positivi e negativi, sia a livello di campione che a livello di token, influenzi l'addestramento RLVR. Sulla base di queste intuizioni, proponiamo un metodo di modellazione del vantaggio a livello di token Adattivo e Asimmetrico per l'Ottimizzazione delle Politiche, denominato A3PO, che alloca i segnali di vantaggio in modo più preciso ai token chiave attraverso le diverse polarità. Esperimenti condotti su cinque benchmark di ragionamento dimostrano l'efficacia del nostro approccio.

English

Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.

Ripensare la Polarità del Campionamento nell’Apprendimento per Rinforzo con Ricompense Verificabili

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

Abstract

Support