SAFE: Affinamento Stabile dell'Allineamento con Controllo Predittivo Consapevole dell'Entropia per RLHF
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF
February 4, 2026
Autori: Dipan Maity
cs.AI
Abstract
L'ottimizzazione PPO (Proximal Policy Optimization) è stata recentemente indicata dalla letteratura come il metodo canonico per la parte RL dell'RLHF. Sebbene il PPO ottenga buoni risultati empirici, è mosso da una motivazione euristica e gestisce il vincolo di divergenza KL utilizzato in LM-RLHF in modo approssimativo, soffrendo di oscillazioni della reward, collasso dell'entropia, deriva della funzione valore e improvvisa divergenza della policy, che richiedono frequenti riavvii e un'ampia ottimizzazione degli iperparametri. In questo articolo, sviluppiamo un nuovo metodo RL puramente on-policy actor-critic per il setting LM-RLHF. Presentiamo SAFE (Stable Alignment Finetuning with Entropy-aware control), un innovativo algoritmo RLHF che combina un Critic a Doppio Soft-Min per una stima pessimistica del valore con un nuovo framework di stabilizzazione multi-livello che integra una regolazione KL controllata dall'entropia e soglie adattive a controllo PID. A differenza delle penalità KL simmetriche del PPO standard, SAFE distingue l'esplorazione ad alta entropia dal collasso modale a bassa entropia e adatta dinamicamente le penalità in base alla velocità della reward. Esperimenti su un modello da 3B di parametri mostrano che SAFE raggiunge una reward media di addestramento superiore del +5,15% rispetto al PPO (0,725 vs 0,689), crash della reward trascurabili e un controllo KL superiore. Il nostro metodo aggiunge un overhead computazionale minimo e fornisce un framework RLHF interpretabile e resistente ai crash, che mantiene un'aggressiva velocità di apprendimento garantendo al contempo un'ottimizzazione stabile a lungo orizzonte adatta alla deployment in produzione. Il codice è disponibile all'indirizzo https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE