Repensando a Polaridade de Amostras no Aprendizado por Reforço com Recompensas Verificáveis

Resumo

Os grandes modelos de raciocínio (LRMs) são normalmente treinados usando aprendizagem por reforço com recompensa verificável (RLVR) para aprimorar suas capacidades de raciocínio. Neste paradigma, as políticas são atualizadas usando rollouts autogerados, tanto positivos quanto negativos, que correspondem a polaridades de amostra distintas. Neste artigo, realizamos uma investigação sistemática sobre como essas polaridades de amostra afetam a dinâmica e os comportamentos do treinamento RLVR. Descobrimos que as amostras positivas aguçam os padrões de raciocínio corretos existentes, enquanto as amostras negativas incentivam a exploração de novos caminhos de raciocínio. Exploramos ainda como o ajuste dos valores de vantagem das amostras positivas e negativas, tanto a nível de amostra quanto a nível de token, afeta o treinamento RLVR. Com base nessas percepções, propomos um método de modelagem de vantagem adaptativo e assimétrico a nível de token para otimização de políticas, denominado A3PO, que aloca sinais de vantagem de forma mais precisa para tokens-chave entre diferentes polaridades. Experimentos em cinco benchmarks de raciocínio demonstram a eficácia da nossa abordagem.

English

Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.

Repensando a Polaridade de Amostras no Aprendizado por Reforço com Recompensas Verificáveis

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

Resumo

Support