ChatPaper.aiChatPaper

Replanteamiento de la Polaridad de Muestras en Aprendizaje por Refuerzo con Recompensas Verificables

Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

December 25, 2025
Autores: Xinyu Tang, Yuliang Zhan, Zhixun Li, Wayne Xin Zhao, Zhenduo Zhang, Zujie Wen, Zhiqiang Zhang, Jun Zhou
cs.AI

Resumen

Los grandes modelos de razonamiento (LRM) suelen entrenarse mediante aprendizaje por refuerzo con recompensa verificable (RLVR) para mejorar sus capacidades de razonamiento. En este paradigma, las políticas se actualizan utilizando rollouts autogenerados tanto positivos como negativos, que corresponden a polaridades de muestra distintas. En este artículo, realizamos una investigación sistemática sobre cómo estas polaridades de muestra afectan la dinámica y los comportamientos del entrenamiento RLVR. Descubrimos que las muestras positivas agudizan los patrones de razonamiento correctos existentes, mientras que las muestras negativas fomentan la exploración de nuevas trayectorias de razonamiento. Exploramos además cómo el ajuste de los valores de ventaja de las muestras positivas y negativas, tanto a nivel de muestra como a nivel de token, afecta al entrenamiento RLVR. Basándonos en estas observaciones, proponemos un método de modelado de ventaja a nivel de token Adaptativo y Asimétrico para la Optimización de Políticas, denominado A3PO, que asigna las señales de ventaja de manera más precisa a los tokens clave según las diferentes polaridades. Los experimentos en cinco benchmarks de razonamiento demuestran la efectividad de nuestro enfoque.
English
Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.
PDF01December 30, 2025