SAFE: Stabiele Afstemming Fijnafstemming met Entropiebewuste Voorspellende Controle voor RLHF
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF
February 4, 2026
Auteurs: Dipan Maity
cs.AI
Samenvatting
Optimalisatie (PPO) wordt in recente literatuur gepositioneerd als de canonieke methode voor het RL-gedeelte van RLHF. PPO presteert empirisch goed, maar heeft een heuristische motivatie, behandelt de KL-divergentiebeperking die in LM-RLHF wordt gebruikt op een ad-hoc-manier, en lijdt onder beloningsoscillaties, entropie-instorting, waardefunctiedrift en plotseling beleidsdivergentie, wat frequente herstarten en uitgebreide hyperparameterafstemming vereist. In dit artikel ontwikkelen we een nieuwe pure on-policy actor-critic RL-methode voor de LM-RLHF-setting. We presenteren SAFE (Stable Alignment Finetuning with Entropy-aware control), een nieuw RLHF-algoritme dat een Double Soft-Min Critic voor pessimistische waardeschatting combineert met een nieuw meerlaags stabilisatiekader dat entropie-gereguleerde KL-regulering en PID-gestuurde adaptieve drempels combineert. In tegenstelling tot de symmetrische KL-straffen van standaard PPO, onderscheidt SAFE exploratie met hoge entropie van mode-instorting met lage entropie en past het straffen dynamisch aan op basis van beloningssnelheid. Experimenten op een model met 3B parameters tonen aan dat SAFE een +5,15% hogere gemiddelde trainingsbeloning behaalt dan PPO (0,725 vs 0,689), verwaarloosbare beloningscrashes en superieure KL-regulering. Onze methode voegt minimale computationele overhead toe en biedt een interpreteerbaar, crashbestendig RLHF-kader dat agressieve leersnelheid handhaaft terwijl het stabiele optimalisatie op lange termijn garandeert, geschikt voor productie-implementatie. Code is beschikbaar op https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE