SAFE: Ajuste Estable de Alineación con Control Predictivo Consciente de la Entropía para RLHF
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF
February 4, 2026
Autores: Dipan Maity
cs.AI
Resumen
La Optimización de Políticas Proximales (PPO) ha sido posicionada por la literatura reciente como el método canónico para la parte de RL del RLHF. PPO funciona bien empíricamente, pero tiene una motivación heurística, maneja la restricción de divergencia KL utilizada en LM-RLHF de manera ad-hoc y sufre de oscilaciones de recompensa, colapso de entropía, deriva de la función de valor y divergencia súbita de la política que requieren reinicios frecuentes y un extenso ajuste de hiperparámetros. En este artículo, desarrollamos un nuevo método de RL puro actor-crítico en política para el entorno LM-RLHF. Presentamos SAFE (Sintonización Estable de Alineación con Control Consciente de la Entropía), un novedoso algoritmo de RLHF que combina un Crítico de Doble Mínimo Suave para la estimación pesimista de valores con un nuevo marco de estabilización multicapa que combina una regulación KL controlada por entropía y umbrales adaptativos controlados por PID. A diferencia de las penalizaciones KL simétricas del PPO estándar, SAFE distingue entre la exploración de alta entropía y el colapso modal de baja entropía, y ajusta las penalizaciones dinámicamente en función de la velocidad de recompensa. Los experimentos en un modelo de 3B de parámetros muestran que SAFE logra una recompensa promedio de entrenamiento un +5.15% superior a la de PPO (0.725 vs 0.689), colapsos de recompensa insignificantes y un control KL superior al de PPO. Nuestro método añade una sobrecarga computacional mínima y proporciona un marco de RLHF interpretable y resistente a colapsos que mantiene una velocidad de aprendizaje agresiva mientras garantiza una optimización estable a largo plazo adecuada para despliegue en producción. El código está disponible en https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE