大規模言語モデルのためのクリッピングフリー方策最適化
Clipping-Free Policy Optimization for Large Language Models
January 30, 2026
著者: Ömer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao
cs.AI
要旨
強化学習は大規模言語モデルのポストトレーニングにおいて中心的な役割を果たすようになったが、主流のアルゴリズムはスケール時に最適化上の問題(勾配消失領域、報酬ハッキング、訓練不安定性など)を引き起こすクリッピング機構に依存している。本研究では、ヒューリスティックなクリッピングを、Total Variationダイバージェンス制約から導出された凸二次ペナルティに置き換えるClipping-Free Policy Optimization(CFPO)を提案する。これにより、ハードな境界を設けることなく安定した方策更新を強制し、至る所で微分可能な目的関数が得られる。CFPOを推論とアライメント設定の両方で評価した。推論タスクでは、CFPOは下流ベンチマークにおいてクリッピングベースの手法と同等の性能を達成しつつ、安定した訓練領域を拡大する。アライメントタスクでは、CFPOは冗長性の悪用を軽減し、能力劣化を抑制しながら、競争力のある指示追従性能を実現する。CFPOはわずか一行のコード変更のみで必要とし、追加のハイパーパラメータを必要としない。我々の結果は、CFPOがLLMポストトレーニングにおけるクリッピングベース手法の有望な代替手段であることを示唆している。
English
Reinforcement learning has become central to post-training large language models, yet dominant algorithms rely on clipping mechanisms that introduce optimization issues at scale, including zero-gradient regions, reward hacking, and training instability. We propose Clipping-Free Policy Optimization (CFPO), which replaces heuristic clipping with a convex quadratic penalty derived from Total Variation divergence constraints, yielding an everywhere-differentiable objective that enforces stable policy updates without hard boundaries. We evaluate CFPO across both reasoning and alignment settings. In reasoning, CFPO matches clipping-based methods on downstream benchmarks while extending the stable training regime. In alignment, CFPO mitigates verbosity exploitation and reduces capability degradation, while achieving competitive instruction-following performance. CFPO requires only a one-line code change and no additional hyperparameters. Our results suggest that CFPO is a promising drop-in alternative to clipping-based methods for LLM post-training.