ChatPaper.aiChatPaper

SAFE : Réglage Fin Stable avec Contrôle Prédictif Conscient de l'Entropie pour l'Alignement par Apprentissage par Renforcement

SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

February 4, 2026
papers.authors: Dipan Maity
cs.AI

papers.abstract

L'optimisation par les politiques proximales (PPO) est considérée par la littérature récente comme la méthode canonique pour la partie apprentissage par renforcement (RL) du RLHF. Bien que le PPO obtienne de bonnes performances empiriques, sa motivation est heuristique et il gère la contrainte de divergence KL utilisée dans LM-RLHF de manière ad hoc. Il souffre également d'oscillations de la récompense, d'effondrement de l'entropie, de dérive de la fonction de valeur et de divergences soudaines de la politique, qui nécessitent des redémarrages fréquents et un réglage hyperparamétrique étendu. Dans cet article, nous développons une nouvelle méthode RL acteur-critique purement sur politique pour le cadre LM-RLHF. Nous présentons SAFE (Stable Alignment Finetuning with Entropy-aware control), un nouvel algorithme RLHF qui combine un critique à double soft-min pour l'estimation pessimiste de la valeur avec un nouveau cadre de stabilisation multi-couches combinant une régulation KL conditionnée par l'entropie et des seuils adaptatifs contrôlés par PID. Contrairement aux pénalités KL symétriques du PPO standard, SAFE distingue l'exploration en haute entropie de l'effondrement modal en basse entropie et ajuste dynamiquement les pénalités en fonction de la vélocité des récompenses. Les expériences sur un modèle de 3 milliards de paramètres montrent que SAFE obtient une récompense moyenne d'entraînement supérieure de +5,15 % à celle du PPO (0,725 contre 0,689), des chutes de récompense négligeables et un contrôle KL supérieur. Notre méthode ajoute une surcharge computationnelle minimale et fournit un cadre RLHF interprétable et résistant aux crashes, qui maintient une vitesse d'apprentissage agressive tout en garantissant une optimisation stable à long terme adaptée à un déploiement en production. Le code est disponible à l'adresse https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE
PDF11February 6, 2026