大規模言語モデル強化学習における信頼領域の再考
Rethinking the Trust Region in LLM Reinforcement Learning
February 4, 2026
著者: Penghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee
cs.AI
要旨
強化学習(RL)は大規模言語モデル(LLM)のファインチューニングにおける基盤技術となり、近接方策最適化(PPO)がデファクトスタンダードアルゴリズムとして広く採用されている。しかしその普及にもかかわらず、PPOの中核である比率クリッピング機構は、LLMに内在する大規模語彙という構造に対して本質的に不適切であると我々は論じる。PPOはサンプリングされたトークンの確率比に基づいて方策更新を制約するが、これは真の方策ダイバージェンスのノイジーな単一サンプル・モンテカルロ推定値でしかない。これにより、最適とは言えない学習ダイナミクスが生じる:低確率トークンへの更新は過度に抑制され、一方で高確率トークンにおける破滅的な変化への制約は不十分となり、結果として学習の非効率性と不安定性を招く。この問題を解決するため、我々はダイバージェンス近接方策最適化(DPPO)を提案する。DPPOはヒューリスティックなクリッピングを、方策ダイバージェンス(例:全変動距離やKLダイバージェンス)の直接推定に基づく、より原理的な制約で置き換える。巨大なメモリフットプリントを回避するため、本質的なダイバージェンスを無視可能なオーバーヘッドで捕捉する効率的なBinary近似およびTop-K近似を導入する。大規模な実証評価により、DPPOが既存手法と比較して優れた学習の安定性と効率性を達成し、RLベースのLLMファインチューニングにより堅牢な基盤を提供することが実証された。
English
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO) serving as the de facto standard algorithm. Despite its ubiquity, we argue that the core ratio clipping mechanism in PPO is structurally ill-suited for the large vocabularies inherent to LLMs. PPO constrains policy updates based on the probability ratio of sampled tokens, which serves as a noisy single-sample Monte Carlo estimate of the true policy divergence. This creates a sub-optimal learning dynamic: updates to low-probability tokens are aggressively over-penalized, while potentially catastrophic shifts in high-probability tokens are under-constrained, leading to training inefficiency and instability. To address this, we propose Divergence Proximal Policy Optimization (DPPO), which substitutes heuristic clipping with a more principled constraint based on a direct estimate of policy divergence (e.g., Total Variation or KL). To avoid huge memory footprint, we introduce the efficient Binary and Top-K approximations to capture the essential divergence with negligible overhead. Extensive empirical evaluations demonstrate that DPPO achieves superior training stability and efficiency compared to existing methods, offering a more robust foundation for RL-based LLM fine-tuning.