SAFE: 강화학습을 통한 인간 피드백 조정을 위한 엔트로피 인식 예측 제어 기반 안정적 정렬 미세조정
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF
February 4, 2026
저자: Dipan Maity
cs.AI
초록
최근 연구에서는 최적화(PPO)가 RLHF의 RL 부분에 대한 표준적인 방법으로 자리매김했습니다. PPO는 실증적으로 우수한 성능을 보이지만 휴리스틱에 기반한 동기를 가지며, LM-RLHF에서 사용되는 KL-발산 제약을 임시적인 방식으로 처리합니다. 또한 보상 진동, 엔트로피 붕괴, 가치 함수 변동, 그리고 갑작스러운 정책 발산 등의 문제가 발생하여 빈번한 재시작과 광범위한 하이퍼파라미터 조정이 필요합니다. 본 논문에서는 LM-RLHF 환경을 위한 새로운 순수 온-정책 액터-크리틱 RL 방법을 개발합니다. 우리는 SAFE(엔트로피 인식 제어를 통한 안정적 조정 미세조정)를 제안합니다. 이는 비관적 가치 추정을 위한 이중 소프트-민 크리틱과 엔트로피 기반 KL 규제, PID 제어 적응형 임계값을 결합한 새로운 다층 안정화 프레임워크를 결합한 혁신적인 RLHF 알고리즘입니다. 기존 PPO의 대칭적 KL 패널티와 달리, SAFE는 높은 엔트로피 탐색과 낮은 엔트로피 모드 붕괴를 구분하며 보상 속도를 기반으로 동적으로 패널티를 조정합니다. 30억 파라미터 모델에서의 실험 결과, SAFE는 PPO 대비 훈련 평균 보상에서 +5.15%(0.725 대 0.689)의 향상을 달성했으며, 미미한 보상 급감과 PPO보다 우수한 KL 제어 성능을 보였습니다. 우리의 방법은 최소한의 계산 오버헤드만 추가하며, 공격적인 학습 속도를 유지하면서도 실제 제품 배포에 적합한 안정적인 장기간 최적화를 보장하는 해석 가능하고 급감에 강건한 RLHF 프레임워크를 제공합니다. 코드는 https://github.com/ryyzn9/SAFE에서 확인할 수 있습니다.
English
Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner and suffers form reward oscillations, entropy collapse, value function drift, and sudden policy divergence that require frequent restarts and extensive hyperparameter tuning. In this paper, we develop a new pure on policy actor-critic RL method for the LM-RLHF setting. We present SAFE (Stable Alignment Finetuning with Entropy-aware control),a novel RLHF algorithm that combines a Double Soft-Min Critic for pessimistic value estimation with a new multi-layer stabilization framework combining entropy-gated KL regulation, and PID-controlled adaptive thresholds. Unlike standard PPO's symmetric KL penalties, SAFE distinguishes high-entropy exploration from low-entropy mode collapse and adjusts penalties dynamically based on reward velocity. Experiments on a 3B parameter model show SAFE achieves +5.15\% training-average reward than PPO (0.725 vs 0.689), negligible reward crashes, and superior KL control than ppo . Our method adds minimal computational overhead and provides an interpretable, crash-resistant RLHF framework that maintains aggressive learning speed while ensuring stable long-horizon optimization suitable for production deployment. Code is available at https://github.com/ryyzn9/SAFE