ChatPaper.aiChatPaper

SAFE: Стабильная тонкая настройка выравнивания с энтропийно-осознанным прогнозирующим управлением для RLHF

SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

February 4, 2026
Авторы: Dipan Maity
cs.AI

Аннотация

Оптимизация политик ближайшего предпочтения (PPO) позиционируется в современной литературе как канонический метод для RL-составляющей RLHF. Несмотря на хорошую эмпирическую производительность, PPO имеет эвристическую мотивацию, ad-hoc обработку ограничения KL-дивергенции, используемого в LM-RLHF, и страдает от колебаний вознаграждений, коллапса энтропии, дрейфа функции ценности и внезапной дивергенции политик, что требует частых перезапусков и тщательного подбора гиперпараметров. В данной статье мы разрабатываем новый чисто онлайновый актор-критиковый RL-метод для настройки LM-RLHF. Мы представляем SAFE (Stable Alignment Finetuning with Entropy-aware control) — новый алгоритм RLHF, сочетающий Double Soft-Min Critic для пессимистичной оценки ценности с новой многоуровневой стабилизационной структурой, объединяющей KL-регуляцию с управлением по энтропии и адаптивные пороги с PID-регулятором. В отличие от симметричных KL-штрафов стандартного PPO, SAFE различает исследование с высокой энтропией и коллапс режима с низкой энтропией, динамически корректируя штрафы на основе скорости изменения вознаграждения. Эксперименты на модели с 3B параметров показывают, что SAFE достигает на +5.15% большего среднего вознаграждения при обучении, чем PPO (0.725 против 0.689), демонстрирует пренебрежимо редкие сбои вознаграждений и превосходный контроль KL-дивергенции. Наш метод добавляет минимальные вычислительные затраты и предоставляет интерпретируемую, устойчивую к сбоям структуру RLHF, которая сохраняет высокую скорость обучения, обеспечивая при этом стабильную долгосрочную оптимизацию, пригодную для промышленного развертывания. Код доступен по адресу https://github.com/ryyzn9/SAFE.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE
PDF11February 6, 2026