SLIME: 선호도 최적화를 위한 안정화 가능도 기반 암시적 마진 적용
SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization
February 2, 2026
저자: Maksim Afanasyev, Illarion Iov
cs.AI
초록
대규모 언어 모델(LLM)을 정렬하기 위한 인간 피드백 강화 학습(RLHF)의 계산 효율적인 대안으로 직접 선호도 최적화 방법이 등장했습니다. 최신 접근법은 암묵적 보상 함수를 도출하여 정렬 과정을 간소화했지만, 선택된 응답과 거부된 응답 간의 상대적 차이를 최적화하는 것이 선택된 응답의 절대적 가능성 보존을 보장하지 못한다는 중요한 목표 불일치 문제를 자주 겪습니다. 이로 인해 높은 품질의 출력 확률이 차이 제약을 충족시키기 위해 저하되는 '역학습' 현상과 거부된 시퀀스의 과도한 페널티로 인한 '형식 붕괴'가 발생할 수 있습니다. 본 연구에서는 선호도 학습과 생성 품질을 분리하도록 설계된 참조 모델 없는 정렬 목표인 SLIME(Stabilized Likelihood Implicit Margin Enforcement)을 소개합니다. SLIME은 세 가지 목표를 통합합니다: (1) 선호하는 응답의 가능성을 최대화하는 고정 항, (2) 거부된 토큰의 확률이 0으로 붕괴되는 것을 방지하는 안정화 패널티, (3) 정확한 경계 형성을 위한 경계와 유연한 제약을 결합한 이중 차이 메커니즘. 실험 결과, SLIME이 최신 기준 모델 대비 우수한 성능을 달성하면서도 더 높은 생성 안정성을 유지함을 입증합니다.
English
Direct preference optimization methods have emerged as a computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) for aligning Large Language Models (LLMs). Latest approaches have streamlined the alignment process by deriving implicit reward functions, yet they often suffer from a critical objective mismatch: optimizing the relative margin between chosen and rejected responses does not guarantee the preservation of the chosen response's absolute likelihood. This can lead to ``unlearning'', where the model degrades the probability of high-quality outputs to satisfy margin constraints, and ``formatting collapse'' caused by the over-penalization of rejected sequences. In this work, we introduce SLIME (Stabilized Likelihood Implicit Margin Enforcement), a reference-free alignment objective designed to decouple preference learning from generation quality. SLIME incorporates a three-pronged objective: (1) an anchoring term to maximize the likelihood of preferred responses; (2) a stabilizing penalty that prevents the probabilities of rejected tokens from collapsing to zero; and (3) a dual-margin mechanism that combines hard and soft constraints for precise boundary shaping. Our results demonstrate that SLIME achieves superior performance compared to state-of-the-art baselines while maintaining higher generation stability.