BandPO: Überbrückung von Vertrauensregionen und Ratio-Clipping durch wahrscheinlichkeitsbewusste Schranken für Reinforcement Learning von großen Sprachmodellen

Zusammenfassung

Proximale Beschränkungen sind grundlegend für die Stabilität des Reinforcement Learnings von Large Language Models. Während der kanonische Clipping-Mechanismus in PPO als effizientes Surrogat für Trust Regions dient, identifizieren wir einen kritischen Engpass: Feste Schranken beschränken strikt die Aufwärts-Update-Spanne von Aktionen mit geringer Wahrscheinlichkeit, unterdrücken unverhältnismäßig hochvorteilhafte Tail-Strategien und induzieren einen schnellen Entropiekollaps. Um dies zu adressieren, führen wir die Band-beschränkte Policy-Optimierung (BandPO) ein. BandPO ersetzt das kanonische Clipping durch Band, einen vereinheitlichten theoretischen Operator, der durch f-Divergenzen definierte Trust Regions in dynamische, wahrscheinlichkeits-sensitive Clipping-Intervalle projiziert. Eine theoretische Analyse bestätigt, dass Band diesen Explorationsengpass effektiv auflöst. Wir formulieren diese Abbildung als ein konvexes Optimierungsproblem, das eine global optimale numerische Lösung garantiert, während für spezifische Divergenzen geschlossene Lösungen abgeleitet werden. Umfangreiche Experimente mit verschiedenen Modellen und Datensätzen demonstrieren, dass BandPO konsistent das kanonische Clipping und Clip-Higher übertrifft und dabei den Entropiekollaps robust abmildert.

English

Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.

BandPO: Überbrückung von Vertrauensregionen und Ratio-Clipping durch wahrscheinlichkeitsbewusste Schranken für Reinforcement Learning von großen Sprachmodellen

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Zusammenfassung

Support