ChatPaper.aiChatPaper

SAFE: Ajuste Fino Estável com Controle Preditivo Consciente da Entropia para RLHF

SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

February 4, 2026
Autores: Dipan Maity
cs.AI

Resumo

A Otimização de Políticas Proximais (PPO) tem sido posicionada pela literatura recente como o método canônico para a parte de RL do RLHF. Embora a PPO apresente bom desempenho empírico, sua motivação é heurística e ela lida com a restrição de divergência KL utilizada no LM-RLHF de maneira ad-hoc, além de sofrer com oscilações de recompensa, colapso de entropia, desvio da função de valor e divergência súbita da política, que exigem reinícios frequentes e um extenso ajuste de hiperparâmetros. Neste artigo, desenvolvemos um novo método de RL puramente *on-policy* do tipo ator-crítico para o cenário de LM-RLHF. Apresentamos o SAFE (Stable Alignment Finetuning with Entropy-aware control), um novo algoritmo de RLHF que combina um Crítico de Duplo Mínimo Suave (*Double Soft-Min Critic*) para estimativa de valor pessimista com uma nova estrutura de estabilização de múltiplas camadas que combina regulação KL com portão de entropia (*entropy-gated*) e limiares adaptativos controlados por PID. Diferente das penalidades simétricas de KL da PPO padrão, o SAFE distingue a exploração de alta entropia do colapso modal de baixa entropia e ajusta as penalidades dinamicamente com base na velocidade da recompensa (*reward velocity*). Experimentos em um modelo de 3B de parâmetros mostram que o SAFE alcança uma recompensa média de treinamento +5,15% superior à PPO (0,725 vs 0,689), colapsos de recompensa negligenciáveis e um controle de KL superior ao da PPO. Nosso método adiciona sobrecarga computacional mínima e fornece uma estrutura de RLHF interpretável e resistente a colapsos, que mantém uma velocidade de aprendizagem agressiva enquanto garante uma otimização estável de longo horizonte adequada para implantação em produção. O código está disponível em https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE
PDF13February 9, 2026