MHPO: Gemoduleerd Gevaarbewust Beleidsoptimalisatie voor Stabiele Versterkingsleren

Samenvatting

Het reguleren van de belangrijkheidsratio is cruciaal voor de trainstabiliteit van op Group Relative Policy Optimization (GRPO) gebaseerde raamwerken. Heersende ratio-controlemethoden, zoals hard clipping, kampen echter met niet-differentieerbare grenzen en gebieden met verdwijnende gradiënten, waardoor ze de gradientgetrouwheid niet kunnen waarborgen. Bovendien ontbreekt bij deze methoden een gevaarbewust mechanisme om extreme deviaties adaptief te onderdrukken, waardoor het optimalisatieproces kwetsbaar blijft voor abrupte beleidswijzigingen. Om deze uitdagingen aan te pakken, stellen we Modulated Hazard-aware Policy Optimization (MHPO) voor, een nieuw raamwerk ontworpen voor robuuste en stabiele reinforcement learning. De voorgestelde MHPO introduceert een Log-Fidelity Modulator (LFM) om onbegrensde belangrijkheidsratio's af te beelden naar een begrensd, differentieerbaar domein. Dit mechanisme voorkomt effectief dat uitschieters met hoge variantie het verlieslandschap destabiliseren, terwijl tegelijkertijd globale gradientstabiliteit wordt gegarandeerd. Complementair hieraan integreert een Decoupled Hazard Penalty (DHP) cumulatieve hazardfuncties uit de overlevingsanalyse om positieve en negatieve beleidswijzigingen onafhankelijk te reguleren. Door het optimalisatielandschap te vormen met gevaarbewuste straftermen bereikt de voorgestelde MHPO een fijnmazige regulering van asymmetrische beleidswijzigingen. Het verzacht simultaan modusinstorting door overmatige expansie en voorkomt beleidserosie door catastrofale contractie binnen een gestabiliseerde vertrouwensregio. Uitgebreide evaluaties op diverse redeneerbenchmarks voor zowel tekstgebaseerde als vision-language taken tonen aan dat MHPO consistent beter presteert dan bestaande methoden, waarbij het superieure prestaties bereikt en tegelijkertijd de trainstabiliteit aanzienlijk verbetert.

English

Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.

MHPO: Gemoduleerd Gevaarbewust Beleidsoptimalisatie voor Stabiele Versterkingsleren

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Samenvatting

Support