실제 우수한 정렬을 위한 참조 모델 학습하기Learn Your Reference Model for Real Good Alignment
정렬 문제의 복잡성은 기존 방법들이 불안정하다는 사실에서 비롯됩니다. 연구자들은 이러한 단점을 해결하기 위해 다양한 기법을 지속적으로 개발하고 있습니다. 예를 들어, 언어 모델 정렬의 기본 기술인 인간 피드백 강화 학습(RLHF)에서는 보상 최대화 외에도, 학습 가능한 정책과 SFT 정책 간의 Kullback-Leibler 발산을 최소화합니다. 이 추가 사항은 모델이 보상 모델(RM)에 과적합되는 것을 방지하고, RM의 도메인을 벗어난 텍스트를 생성하지 않도록 합니다. 직접 선호 최적화(DPO) 방법은 RLHF의 최적화 문제를 재구성하여 보상 모델을 제거하면서도, 정책이 SFT 정책에 가깝게 유지되어야 한다는 요구 사항을 암묵적으로 유지합니다. 본 논문에서는 DPO 방법의 이러한 암묵적 제한이 최적이 아닌 결과를 초래한다고 주장합니다. 우리는 훈련 과정에서 참조 정책을 업데이트하는 새로운 방법인 Trust Region DPO(TR-DPO)를 제안합니다. 이러한 간단한 업데이트를 통해, Anthropic HH 및 TLDR 데이터셋에서 TR-DPO가 DPO보다 효과적임을 입증합니다. GPT-4를 사용한 자동 평가에서 TR-DPO가 DPO를 최대 19%까지 능가하는 것을 보여줍니다. 우리가 제안하는 새로운 정렬 접근법은 일관성, 정확성, 세부 수준, 유용성, 무해성 등 여러 매개변수에 걸쳐 모델의 품질을 동시에 개선할 수 있게 합니다.