MHPO: 안정적 강화 학습을 위한 변조된 위험 인식 정책 최적화
MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning
March 14, 2026
저자: Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han
cs.AI
초록
중요도 비율을 규제하는 것은 GRPO(Group Relative Policy Optimization) 기반 프레임워크의 훈련 안정성에 있어 핵심적입니다. 그러나 경성 클리핑과 같은 기존 비율 제어 방법은 미분 불가능한 경계와 기울기 소실 영역 문제로 인해 기울기 정확도를 유지하지 못하는 한계가 있습니다. 더욱이 이러한 방법들은 극단적 편차를 적응적으로 억제할 위험 인식 메커니즘이 부족하여 갑작스러운 정책 변화에 최적화 과정이 취약해집니다. 이러한 문제를 해결하기 위해 본 연구는 강건하고 안정적인 강화 학습을 위한 새로운 프레임워크인 MHPO(Modulated Hazard-aware Policy Optimization)를 제안합니다. 제안된 MHPO는 로그 정확도 모듈레이터(LFM)를 도입하여 무제한 중요도 비율을 유계이며 미분 가능한 영역으로 매핑합니다. 이 메커니즘은 손실 경관을 불안정하게 만드는 고분산 이상치 토큰을 효과적으로 방지하면서 전역 기울기 안정성을 보장합니다. 보완적으로, 분리형 위험 패널티(DHP)는 생존 분석의 누적 위험 함수를 통합하여 긍정적 및 부정적 정책 변화를 독립적으로 규제합니다. 위험 인식 패널티로 최적화 경관을 형성함으로써, 제안된 MHPO는 비대칭 정책 변화의 세밀한 규제를 달성하며, 과도한 확장으로 인한 모드 붕괴를 완화하고 안정화된 신뢰 영역 내에서 치명적 수축으로 인한 정책 침식을 동시에 방지합니다. 텍스트 기반 및 시각-언어 과제에 걸친 다양한 추론 벤치마크에서의 광범위한 평가를 통해 MHPO가 기존 방법들을 일관되게 능가하며, 훈련 안정성을 크게 향상시키면서도 우수한 성능을 달성함을 입증합니다.
English
Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.