BandPO: Unificando Regiones de Confianza y Recorte de Razón mediante Límites Conscientes de la Probabilidad para el Aprendizaje por Refuerzo en LLM

Resumen

Las restricciones proximales son fundamentales para la estabilidad del aprendizaje por refuerzo en Modelos de Lenguaje a Gran Escala. Si bien el mecanismo de recorte canónico en PPO sirve como un sustituto eficiente de las regiones de confianza, identificamos un cuello de botella crítico: los límites fijos restringen estrictamente el margen de actualización ascendente de las acciones de baja probabilidad, suprimiendo desproporcionadamente las estrategias de cola de alta ventaja e induciendo un colapso rápido de la entropía. Para abordar esto, presentamos la Optimización de Políticas con Restricciones de Banda (BandPO). BandPO reemplaza el recorte canónico con Band, un operador teórico unificado que proyecta las regiones de confianza definidas por f-divergencias en intervalos de recorte dinámicos y sensibles a la probabilidad. El análisis teórico confirma que Band resuelve efectivamente este cuello de botella de exploración. Formulamos esta asignación como un problema de optimización convexa, garantizando una solución numérica globalmente óptima mientras derivamos soluciones de forma cerrada para divergencias específicas. Experimentos exhaustivos en diversos modelos y conjuntos de datos demuestran que BandPO supera consistentemente al recorte canónico y a Clip-Higher, mitigando robustamente el colapso de entropía.

English

Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.

BandPO: Unificando Regiones de Confianza y Recorte de Razón mediante Límites Conscientes de la Probabilidad para el Aprendizaje por Refuerzo en LLM

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Resumen

Support