ChatPaper.aiChatPaper

직접적 선호 최적화를 위한 새로운 요구사항

New Desiderata for Direct Preference Optimization

July 12, 2024
저자: Xiangkun Hu, Tong He, David Wipf
cs.AI

초록

과거의 대형 언어 모델들은 일반적으로 인간의 선호도와 모델 응답을 더 잘 맞추기 위해 인간 피드백을 활용한 강화 학습(RLHF)의 어떤 형태에 의존해 왔습니다. 그러나 이러한 RLHF 파이프라인을 구현할 때 자주 관찰되는 불안정성 때문에, 최근에는 별도의 RL 보상 모델을 학습할 필요를 피하기 위해 다양한 재매개변수화 기법이 도입되었습니다. 대신, 인간의 선호도를 직접 미세 조정하는 것은 단일 폐쇄형 훈련 목적 함수의 최소화를 통해 달성되며, 이 과정은 원래 직접 선호 최적화(DPO)라고 불렸고 이후 여러 주목할 만한 후속 연구들이 이어졌습니다. 특정 실제 환경에서는 효과적이지만, 우리는 기존 DPO 방법들이 사전 훈련된 참조 모델과 인간 선호도의 경험적 측정치 사이를 보간하는 능력, 그리고 저품질 및 고품질 응답을 규제하고 제약을 처리하는 방식에서 피할 수 없는 절충점을 강조하는 새로운 평가 기준을 제시합니다. 이러한 통찰은 이러한 한계를 완화할 수 있는 대체 DPO 유사 손실 함수를 고안하도록 동기를 부여합니다. 실험 결과는 우리의 분석에서 주목할 만한 측면들을 뒷받침합니다.
English
Large language models in the past have typically relied on some form of reinforcement learning with human feedback (RLHF) to better align model responses with human preferences. However, because of oft-observed instabilities when implementing these RLHF pipelines, various reparameterization techniques have recently been introduced to sidestep the need for separately learning an RL reward model. Instead, directly fine-tuning for human preferences is achieved via the minimization of a single closed-form training objective, a process originally referred to as direct preference optimization (DPO) and followed by several notable descendants. Although effective in certain real-world settings, we introduce new evaluation criteria that serve to highlight unresolved shortcomings in the ability of existing DPO methods to interpolate between a pre-trained reference model and empirical measures of human preferences, as well as unavoidable trade-offs in how low- and high-quality responses are regularized and constraints are handled. Our insights then motivate an alternative DPO-like loss that provably mitigates these limitations. Empirical results serve to corroborate notable aspects of our analyses.

Summary

AI-Generated Summary

PDF114November 28, 2024