BandPO: Collega le regioni di fiducia e il clipping dei rapporti tramite limiti basati sulla probabilità per il reinforcement learning dei LLM

Abstract

I vincoli prossimali sono fondamentali per la stabilità dell'apprendimento per rinforzo dei Large Language Model. Sebbene il meccanismo canonico di clipping nel PPO funga da efficiente approssimazione delle regioni di fiducia, identifichiamo un collo di bottiglia critico: limiti fissi vincolano rigorosamente il margine di aggiornamento al rialzo delle azioni a bassa probabilità, sopprimendo in modo sproporzionato le strategie di coda ad alto vantaggio e inducendo un rapido collasso dell'entropia. Per affrontare questo problema, introduciamo la Band-constrained Policy Optimization (BandPO). BandPO sostituisce il clipping canonico con Band, un operatore teorico unificato che proietta le regioni di fiducia definite dalle f-divergenze in intervalli di clipping dinamici e consapevoli della probabilità. L'analisi teorica conferma che Band risolve efficacemente questo collo di bottiglia esplorativo. Formuliamo questa mappatura come un problema di ottimizzazione convessa, garantendo una soluzione numerica globalmente ottimale mentre deriviamo soluzioni in forma chiusa per divergenze specifiche. Esperimenti estesi su modelli e dataset diversificati dimostrano che BandPO supera costantemente il clipping canonico e Clip-Higher, mitigando in modo robusto il collasso dell'entropia.

English

Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.

BandPO: Collega le regioni di fiducia e il clipping dei rapporti tramite limiti basati sulla probabilità per il reinforcement learning dei LLM

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Abstract

Support