Neubetrachtung der Divergenzregularisierung im LLM-RL

Zusammenfassung

Reinforcement Learning (RL) ist zu einer Schlüsselkomponente des Post-Trainings großer Sprachmodelle (LLMs) geworden. In der Praxis ist LLM-RL aufgrund von Trainings-Inferenz-Diskrepanzen und veralteten Policies häufig off-policy, weshalb eine Kontrolle der Vertrauensregion für eine stabile Optimierung unerlässlich ist. Gängige Methoden wie PPO und GRPO nähern diese Kontrolle durch einen Ratio-Clipping-Mechanismus an, doch die Importance Ratio kann bei langschwänzigen Vokabularen ein schlechter Proxy für die Distributionsverschiebung sein. Neuere Arbeiten wie DPPO beheben diese Diskrepanz, indem sie das ratio-basierte Clipping durch eine divergenzbasierte Maske ersetzen, was eine Vertrauensregion definiert, die auf der absoluten Wahrscheinlichkeitsverschiebung des abgetasteten Tokens beruht. Allerdings basiert DPPO nach wie vor auf einer harten Maske: Sobald ein Token die Grenze der Vertrauensregion in eine schädliche Richtung überschreitet, wird sein Gradient verworfen, anstatt korrigiert zu werden. Um dieses Problem zu adressieren, schlagen wir Divergence Regularized Policy Optimization (DRPO) vor, das die harte Maske durch einen glatten, vorteilsgewichteten quadratischen Regularisierer auf die Policy-Verschiebung ersetzt. DRPO bewahrt die gleiche Geometrie der Vertrauensregion wie DPPO, induziert jedoch beschränkte, kontinuierliche Gradientengewichte, die divergierende Updates abschwächen und auch jenseits der Grenze Korrektursignale liefern. Experimente über verschiedene Modellgrößen, Architekturen und Präzisionseinstellungen hinweg zeigen, dass DRPO die Stabilität und Effizienz des LLM-RL-Trainings verbessert.

English

Reinforcement learning (RL) has become a key component of post-training large language models (LLMs). In practice, LLM RL is often off-policy because of training-inference mismatch and policy staleness, making trust-region control essential for stable optimization. Mainstream methods such as PPO and GRPO approximate this control with a ratio-clipping mechanism, but the importance ratio can be a poor proxy for distributional shift in long-tailed vocabularies. Recent work such as DPPO addresses this mismatch by replacing ratio-based clipping with a divergence-based mask, yielding a trust region defined by the sampled token's absolute probability shift. However, DPPO still relies on a hard mask: once a token crosses the trust-region boundary in a harmful direction, its gradient is discarded rather than corrected. To address this, we propose Divergence Regularized Policy Optimization (DRPO), which replaces the hard mask with a smooth advantage-weighted quadratic regularizer on policy shift. DRPO preserves the same trust-region geometry as DPPO while inducing bounded, continuous gradient weights that attenuate diverging updates and provide corrective signals beyond the boundary. Experiments across model scales, architectures, and precision settings show that DRPO improves the stability and efficiency of LLM RL training.