MHPO: Optimización de Políticas con Conciencia del Riesgo Modulada para un Aprendizaje por Refuerzo Estable

Resumen

La regulación del ratio de importancia es crítica para la estabilidad del entrenamiento en frameworks basados en la Optimización de Políticas de Grupo Relativo (GRPO). Sin embargo, los métodos predominantes de control del ratio, como el recorte abrupto (hard clipping), adolecen de límites no diferenciables y regiones de gradiente vanishing, lo que les impide mantener la fidelidad del gradiente. Además, estos métodos carecen de un mecanismo consciente del riesgo (hazard-aware) para suprimir adaptativamente las desviaciones extremas, dejando el proceso de optimización vulnerable a cambios abruptos en la política. Para abordar estos desafíos, proponemos la Optimización de Políticas con Modulación y Conciencia del Riesgo (MHPO), un novedoso framework diseñado para el aprendizaje por refuerzo robusto y estable. El MHPO propuesto introduce un Modulador de Log-Fidelidad (LFM) para mapear los ratios de importancia no acotados en un dominio acotado y diferenciable. Este mecanismo previene efectivamente que los tokens atípicos de alta varianza desestabilicen el panorama de pérdida (loss landscape), garantizando al mismo tiempo la estabilidad global del gradiente. De forma complementaria, una Penalización de Riesgo Desacoplada (DHP) integra funciones de riesgo acumulado del análisis de supervivencia para regular independientemente los cambios de política positivos y negativos. Al modelar el panorama de optimización con penalizaciones conscientes del riesgo, el MHPO propuesto logra una regulación de grano fino de los cambios de política asimétricos, mitigando simultáneamente el colapso modal por sobreexpansión y previniendo la erosión de la política por contracción catastrófica dentro de una región de confianza estabilizada. Evaluaciones exhaustivas en diversos benchmarks de razonamiento, tanto en tareas basadas en texto como de lenguaje visual, demuestran que MHPO supera consistentemente a los métodos existentes, logrando un rendimiento superior mientras mejora significativamente la estabilidad del entrenamiento.

English

Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.

MHPO: Optimización de Políticas con Conciencia del Riesgo Modulada para un Aprendizaje por Refuerzo Estable

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Resumen

Support