Het Heroverwegen van het Vertrouwensgebied bij Reinforcement Learning voor Grote Taalmodellen
Rethinking the Trust Region in LLM Reinforcement Learning
February 4, 2026
Auteurs: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI
Samenvatting
Versterkend leren (RL) is een hoeksteen geworden voor het finetunen van Large Language Models (LLA's), waarbij Proximal Policy Optimization (PPO) dient als het de facto standaardalgoritme. Ondanks deze alomtegenwoordigheid stellen wij dat het kernmechanisme van ratio-clipping in PPO structureel ongeschikt is voor de grote vocabularia die inherent zijn aan LLA's. PPO beperkt policy-updates op basis van de waarschijnlijkheidsratio van bemonsterde tokens, wat fungeert als een ruwe Monte Carlo-schatting met één steekproef voor de werkelijke policy-divergentie. Dit creëert een suboptimaal leerdynamiek: updates voor tokens met een lage waarschijnlijkheid worden agressief overbestraft, terwijl potentieel catastrofale verschuivingen in tokens met een hoge waarschijnlijkheid onvoldoende worden begrensd, wat leidt tot trainingsinefficiëntie en instabiliteit. Om dit aan te pakken, stellen wij Divergence Proximal Policy Optimization (DPPO) voor, dat heuristische clipping vervangt door een meer principiële beperking gebaseerd op een directe schatting van policy-divergentie (bijvoorbeeld Total Variation of KL). Om een groot geheugenverbruik te vermijden, introduceren wij de efficiënte Binaire en Top-K-benaderingen om de essentiële divergentie te vangen met verwaarloosbare overhead. Uitgebreide empirische evaluaties tonen aan dat DPPO superieure trainingsstabiliteit en -efficiëntie bereikt in vergelijking met bestaande methoden, en biedt zo een robuustere basis voor RL-gebaseerd LLA-finetunen.
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.