ChatPaper.aiChatPaper

Recorte de la Razón de Entropía como Restricción Global Suave para el Aprendizaje por Refuerzo Estable

Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

December 5, 2025
Autores: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Tiehua Mei, Zijia Lin, Yuntao Li, Wenping Hu, Ruiming Tang, Kun Gai, Guorui Zhou
cs.AI

Resumen

El post-entrenamiento de modelos lingüísticos grandes se basa en el aprendizaje por refuerzo para mejorar la capacidad del modelo y la calidad de la alineación. Sin embargo, el paradigma de entrenamiento fuera de política introduce un cambio de distribución, que a menudo lleva la política más allá de la región de confianza, resultando en inestabilidades de entrenamiento manifestadas como fluctuaciones en la entropía de la política y gradientes inestables. Aunque PPO-Clip mitiga este problema mediante el recorte por importancia, aún pasa por alto el cambio distribucional global de las acciones. Para abordar estos desafíos, proponemos utilizar la relación de entropía entre la política actual y la anterior como una nueva métrica global que cuantifica eficazmente el cambio relativo en la exploración de la política a lo largo de las actualizaciones. Basándonos en esta métrica, introducimos un mecanismo de Recorte de la Relación de Entropía (ERC, por sus siglas en inglés) que impone restricciones bidireccionales sobre dicha relación. Esto estabiliza las actualizaciones de la política a nivel de distribución global y compensa la incapacidad de PPO-clip para regular los cambios de probabilidad de las acciones no muestreadas. Integramos ERC en los algoritmos de aprendizaje por refuerzo DAPO y GPPO. Los experimentos en múltiples benchmarks muestran que ERC mejora consistentemente el rendimiento.
English
Large language model post-training relies on reinforcement learning to improve model capability and alignment quality. However, the off-policy training paradigm introduces distribution shift, which often pushes the policy beyond the trust region, leading to training instabilities manifested as fluctuations in policy entropy and unstable gradients. Although PPO-Clip mitigates this issue through importance clipping, it still overlooks the global distributional shift of actions. To address these challenges, we propose using the entropy ratio between the current and previous policies as a new global metric that effectively quantifies the relative change in policy exploration throughout updates. Building on this metric, we introduce an Entropy Ratio Clipping (ERC) mechanism that imposes bidirectional constraints on the entropy ratio. This stabilizes policy updates at the global distribution level and compensates for the inability of PPO-clip to regulate probability shifts of un-sampled actions. We integrate ERC into both DAPO and GPPO reinforcement learning algorithms. Experiments across multiple benchmarks show that ERC consistently improves performance.
PDF162December 9, 2025