MHPO: Otimização de Políticas com Modulação e Consciência do Risco para Aprendizagem por Reforço Estável

Resumo

A regulação da razão de importância é crítica para a estabilidade do treinamento de estruturas baseadas na Otimização de Política Relativa de Grupo (GRPO). No entanto, os métodos predominantes de controle de razão, como o corte rígido (hard clipping), sofrem com limites não diferenciáveis e regiões de gradiente vanishing, falhando em manter a fidelidade do gradiente. Além disso, esses métodos carecem de um mecanismo consciente do risco (hazard-aware) para suprimir adaptativamente desvios extremos, deixando o processo de otimização vulnerável a mudanças abruptas de política. Para enfrentar esses desafios, propomos a Otimização de Política Modulada e Consciente do Risco (MHPO), uma nova estrutura concebida para aprendizagem por reforço robusta e estável. A MHPO proposta introduz um Modulador de Log-Fidelidade (LFM) para mapear razões de importância ilimitadas para um domínio limitado e diferenciável. Este mecanismo impede eficazmente que tokens outliers de alta variância desestabilizem o panorama (landscape) de perda, garantindo ao mesmo tempo a estabilidade global do gradiente. De forma complementar, uma Penalidade de Risco Desacoplada (DHP) integra funções de risco cumulativo da análise de sobrevivência para regular independentemente os desvios de política positivos e negativos. Ao moldar o panorama de otimização com penalidades conscientes do risco, a MHPO proposta alcança uma regulação de granularidade fina dos desvios de política assimétricos, mitigando simultaneamente o colapso modal (mode collapse) devido à super-expansão e prevenindo a erosão da política devido a uma contração catastrófica, dentro de uma região de confiança estabilizada. Extensivas avaliações em diversos benchmarks de raciocínio, abrangendo tarefas baseadas em texto e de linguagem visual, demonstram que a MHPO supera consistentemente os métodos existentes, alcançando um desempenho superior enquanto melhora significativamente a estabilidade do treinamento.

English

Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.

MHPO: Otimização de Políticas com Modulação e Consciência do Risco para Aprendizagem por Reforço Estável

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Resumo

Support