BandPO: Unindo Regiões de Confiança e Recorte de Proporção por meio de Limites Conscientes de Probabilidade para Aprendizagem por Reforço em LLMs

Resumo

As restrições proximais são fundamentais para a estabilidade do aprendizado por reforço em Modelos de Linguagem de Grande Porte. Embora o mecanismo canônico de *clipping* no PPO sirva como um substituto eficiente para as regiões de confiança, identificamos um gargalo crítico: limites fixos restringem estritamente a margem de atualização ascendente de ações de baixa probabilidade, suprimindo desproporcionalmente estratégias de cauda com alta vantagem e induzindo um colapso rápido da entropia. Para resolver isso, introduzimos a Otimização de Política com Restrição de Banda (BandPO). O BandPO substitui o *clipping* canônico pela Banda, um operador teórico unificado que projeta regiões de confiança definidas por f-divergências em intervalos de *clipping* dinâmicos e conscientes da probabilidade. A análise teórica confirma que a Banda resolve efetivamente esse gargalo de exploração. Formulamos esse mapeamento como um problema de otimização convexa, garantindo uma solução numérica globalmente ótima enquanto derivamos soluções de forma fechada para divergências específicas. Experimentos extensos em diversos modelos e conjuntos de dados demonstram que o BandPO supera consistentemente o *clipping* canônico e o Clip-Higher, ao mesmo tempo que mitiga robustamente o colapso da entropia.

English

Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.

BandPO: Unindo Regiões de Confiança e Recorte de Proporção por meio de Limites Conscientes de Probabilidade para Aprendizagem por Reforço em LLMs

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Resumo

Support