MHPO: Ottimizzazione della Politica Modulata e Consapevole del Rischio per un Apprendimento per Rinforzo Stabile

Abstract

La regolazione del rapporto d'importanza è fondamentale per la stabilità dell'addestramento dei framework basati su Group Relative Policy Optimization (GRPO). Tuttavia, i metodi di controllo del rapporto prevalenti, come il clipping rigido, soffrono di limiti non differenziabili e regioni a gradiente nullo, fallendo nel mantenere la fedeltà del gradiente. Inoltre, questi metodi sono privi di un meccanismo di consapevolezza del rischio (hazard-aware) per sopprimere adattivamente le deviazioni estreme, lasciando il processo di ottimizzazione vulnerabile a bruschi cambiamenti della policy. Per affrontare queste sfide, proponiamo la Modulated Hazard-aware Policy Optimization (MHPO), un nuovo framework progettato per un apprendimento per rinforzo robusto e stabile. La MHPO proposta introduce un Modulatore di Fedeltà Logaritmica (Log-Fidelity Modulator - LFM) per mappare i rapporti d'importanza illimitati in un dominio limitato e differenziabile. Questo meccanismo previene efficacemente l'instabilizzazione del panorama della loss da parte di token outlier ad alta varianza, garantendo al contempo la stabilità globale del gradiente. In modo complementare, una Penalità di Rischio Disaccoppiata (Decoupled Hazard Penalty - DHP) integra le funzioni di rischio cumulativo dall'analisi di sopravvivenza per regolare indipendentemente gli spostamenti positivi e negativi della policy. Modellando il panorama di ottimizzazione con penalità sensibili al rischio, la MHPO proposta ottiene una regolazione granulare degli spostamenti asimmetrici della policy, mitigando simultaneamente il collasso modale da sovra-espansione e prevenendo l'erosione della policy da contrazioni catastrofiche, all'interno di una regione di fiducia stabilizzata. Valutazioni estensive su diversi benchmark di ragionamento, sia per compiti testuali che visivo-linguistici, dimostrano che MHPO supera costantemente i metodi esistenti, raggiungendo prestazioni superiori migliorando significativamente la stabilità dell'addestramento.

English

Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.

MHPO: Ottimizzazione della Politica Modulata e Consapevole del Rischio per un Apprendimento per Rinforzo Stabile

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Abstract

Support