ChatPaper.aiChatPaper

SAFE: Stabiles Alignment-Finetuning mit entropiebewusster prädiktiver Steuerung für RLHF

SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

February 4, 2026
papers.authors: Dipan Maity
cs.AI

papers.abstract

Optimierung (PPO) wird in der jüngeren Literatur als die Standardmethode für den RL-Teil von RLHF positioniert. PPO schneidet empirisch gut ab, hat jedoch eine heuristische Motivation und behandelt die in LM-RLHF verwendete KL-Divergenz-Nebenbedingung auf ad-hoc-Weise. Zudem leidet es unter Oszillationen der Belohnung, Entropiekollaps, Drift der Wertfunktion und plötzlicher Policy-Divergenz, was häufige Neustarts und umfangreiche Hyperparameter-Tuning erfordert. In diesem Artikel entwickeln wir eine neue rein on-policy Actor-Critic-RL-Methode für die LM-RLHF-Umgebung. Wir stellen SAFE (Stable Alignment Finetuning with Entropy-aware control) vor, einen neuartigen RLHF-Algorithmus, der einen Double Soft-Min Critic für pessimistische Wertschätzung mit einem neuen mehrschichtigen Stabilisierungsframework kombiniert, das KL-Regulierung mit Entropie-Steuerung und PID-gesteuerte adaptive Schwellenwerte vereint. Im Gegensatz zu den symmetrischen KL-Strafen von Standard-PPO unterscheidet SAFE zwischen Exploration mit hoher Entropie und Modus-Kollaps mit niedriger Entropie und passt die Strafen dynamisch basierend auf der Belohnungsgeschwindigkeit an. Experimente mit einem 3-Milliarden-Parameter-Modell zeigen, dass SAFE eine um +5,15 % höhere durchschnittliche Trainingsbelohnung als PPO erzielt (0,725 vs. 0,689), vernachlässigbare Belohnungseinbrüche aufweist und eine überlegene KL-Kontrolle gegenüber PPO bietet. Unsere Methode fügt minimalen Rechenaufwand hinzu und bietet ein interpretierbares, absturzsicheres RLHF-Framework, das eine aggressive Lerngeschwindigkeit beibehält und gleichzeitig eine stabile Langzeitoptimierung gewährleistet, die für den Produktiveinsatz geeignet ist. Der Code ist verfügbar unter https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE
PDF11February 6, 2026