ChatPaper.aiChatPaper

SAFE: RLHFのためのエントロピーを考慮した予測制御による安定アライメントファインチューニング

SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

February 4, 2026
著者: Dipan Maity
cs.AI

要旨

近年の文献では、最適化手法(PPO)がRLHFの強化学習部分における標準的手法として位置づけられてきた。PPOは経験的に良好な性能を示すものの、発見的な動機付けに基づいており、LM-RLHFで用いられるKLダイバージェンス制約をアドホックに扱うため、報酬の振動、エントロピー崩壊、価値関数のドリフト、突然の方策発散といった問題が生じ、頻繁な再起動や大規模なハイパーパラメータ調整を必要とする。本論文では、LM-RLHF設定において、新しい純粋な方策オン型のアクター・クリティック強化学習手法を開発する。我々はSAFE(Stable Alignment Finetuning with Entropy-aware control)を提案する。これは、悲観的価値推定のための二重ソフトミン・クリティックと、エントロピー制御付きKL調整およびPID制御による適応しきい値を組み合わせた新しい多層安定化フレームワークを統合した革新的なRLHFアルゴリズムである。標準的なPPOの対称的なKLペナルティとは異なり、SAFEは高エントロピー探索と低エントロピー・モード崩壊を区別し、報酬変化速度に基づいて動的にペナルティを調整する。30億パラメータモデルを用いた実験では、SAFEはPPOと比較して訓練平均報酬で+5.15%(0.725対0.689)向上し、報酬の暴落が無視可能で、PPOを上回るKL制御性能を示した。本手法は計算オーバーヘッドを最小限に抑え、解釈性が高く暴落耐性を持つRLHFフレームワークを提供し、生産環境での展開に適した安定した長期最適化を保証しつつ、積極的な学習速度を維持する。コードはhttps://github.com/ryyzn9/SAFEで公開されている。
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE
PDF11February 6, 2026