LLM強化学習における一様なトークンレベルの信頼領域を超えて
Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning
June 9, 2026
著者: Renjie Mao, Xiangxin Zhou, Lvfang Tao, Yixin Ding, Yu Shi, Yongguang Lin, Yuheng Wu, Honglin Zhu, Qian Qiu, Wenxi Zhu
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、LLMの推論能力を向上させるための標準的な手法となっている。しかし、既存のPPOスタイルの信頼領域メカニズムは、すべてのトークンに対して独立に均一な閾値を適用することで位置に依存しないままである。この点単位の処理は、自己回帰生成と二つの重要な点で矛盾する。第一に、均一な閾値は自己回帰的な非対称性を無視する。初期段階の偏差は累積的な系列レベルのドリフトを生み出し、固定された閾値では初期の発散を過小に抑制し、後期の探索を過度に制約してしまう。第二に、トークンレベルの発散を個別に評価することは累積的なプレフィックスドリフトを見落とし、条件付けの履歴がロールアウトポリシーからどれだけ乖離しているかに関わらず同じ発散許容範囲を与えてしまう。この制限に対処するため、我々はCPPO(累積プレフィックス発散ポリシー最適化)を提案する。これは、二つの結合されたメカニズムを介して更新を有限期間ポリシー改善境界に合わせるトークンレベルのマスキングルールである。第一に、位置重み付け閾値は、影響が長く持続する初期位置により厳しい制限を課し、後期のトークンに対する制約を緩和する。第二に、累積プレフィックス予算は履歴の偏差を追跡し、トークンレベルのさらなる偏差を動的に制限することで、プレフィックスに沿った誤差の累積を防ぐ。実験的に、CPPOは訓練の安定性を向上させ、さまざまなモデル規模にわたって推論精度を大幅に改善する。
English
Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-region mechanisms remain position-agnostic by enforcing uniform thresholds across all tokens independently. This pointwise treatment conflicts with autoregressive generation in two critical ways. First, uniform thresholds ignore autoregressive asymmetry. Early-stage deviations produce compounding sequence-level drift, causing static thresholds to under-regulate early divergence and excessively constrain late-stage exploration. Second, evaluating token-level divergence in isolation overlooks cumulative prefix drift, granting the same divergence allowance regardless of how far the conditioning history has already deviated from the rollout policy. To address this limitation, we propose CPPO (Cumulative Prefix-divergence Policy Optimization), a token-level masking rule that aligns updates with a finite-horizon policy-improvement bound via two coupled mechanisms. First, a position-weighted threshold imposes stricter limits at early positions whose effects persist longer, relaxing constraints for late-stage tokens. Second, a cumulative prefix budget tracks historical deviations, dynamically restricting further token-level deviation to prevent compounding errors along the prefix. Empirically, CPPO enhances training stability and significantly improves reasoning accuracy across various model scales.