BandPO : Relier les régions de confiance et le clipping des ratios par des bornes sensibles aux probabilités pour l'apprentissage par renforcement des LLM

Résumé

Les contraintes proximales sont fondamentales pour la stabilité de l'apprentissage par renforcement des grands modèles de langage. Bien que le mécanisme canonique de clipping dans PPO serve de substitut efficace aux régions de confiance, nous identifions un goulot d'étranglement critique : les bornes fixes contraignent strictement la marge de mise à jour ascendante des actions à faible probabilité, supprimant de manière disproportionnée les stratégies de queue à fort avantage et induisant un effondrement rapide de l'entropie. Pour résoudre ce problème, nous introduisons l'Optimisation de Politique à Contrainte de Bande (BandPO). BandPO remplace le clipping canonique par Band, un opérateur théorique unifié qui projette les régions de confiance définies par les f-divergences en intervalles de clipping dynamiques et sensibles à la probabilité. L'analyse théorique confirme que Band résout efficacement ce goulot d'étranglement explorationnel. Nous formulons cette projection comme un problème d'optimisation convexe, garantissant une solution numérique globalement optimale tout en dérivant des solutions fermées pour des divergences spécifiques. Des expériences approfondies sur divers modèles et jeux de données démontrent que BandPO surpasse constamment le clipping canonique et Clip-Higher, tout en atténuant robustement l'effondrement de l'entropie.

English

Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.

BandPO : Relier les régions de confiance et le clipping des ratios par des bornes sensibles aux probabilités pour l'apprentissage par renforcement des LLM

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Résumé

Support