MHPO : Optimisation de Politique Modulée et Sensible au Risque pour un Apprentissage par Renforcement Stable

Résumé

La régulation du ratio d'importance est cruciale pour la stabilité de l'entraînement des cadres basés sur l'Optimisation de Politique Relative par Groupe (GRPO). Cependant, les méthodes de contrôle de ratio prédominantes, telles que l'écrêtage strict, souffrent de limites non différentiables et de régions à gradient nul, ne parvenant pas à maintenir la fidélité du gradient. De plus, ces méthodes manquent d'un mécanisme sensible au risque pour supprimer de manière adaptative les déviations extrêmes, laissant le processus d'optimisation vulnérable à des changements de politique abrupts. Pour relever ces défis, nous proposons l'Optimisation de Politique Modulée et Sensible au Risque (MHPO), un nouveau cadre conçu pour un apprentissage par renforcement robuste et stable. Le MHPO proposé introduit un Modulateur à Log-Fidélité (LFM) pour transformer les ratios d'importance non bornés en un domaine borné et différentiable. Ce mécanisme prévient efficacement la déstabilisation du paysage de perte par des tokens aberrants à haute variance, tout en garantissant une stabilité globale du gradient. En complément, une Pénalité de Risque Découplée (DHP) intègre des fonctions de risque cumulé issues de l'analyse de survie pour réguler indépendamment les changements de politique positifs et négatifs. En façonnant le paysage d'optimisation avec des pénalités sensibles au risque, le MHPO proposé permet une régulation fine des changements de politique asymétriques, atténuant simultanément l'effondrement modal dû à une surexpansion et empêchant l'érosion de la politique due à une contraction catastrophique, le tout dans une région de confiance stabilisée. Des évaluations approfondies sur divers benchmarks de raisonnement, incluant des tâches textuelles et vision-langage, démontrent que le MHPO surpasse constamment les méthodes existantes, atteignant des performances supérieures tout en améliorant significativement la stabilité de l'entraînement.

English

Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.

MHPO : Optimisation de Politique Modulée et Sensible au Risque pour un Apprentissage par Renforcement Stable

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Résumé

Support