ChatPaper.aiChatPaper

실제 우수한 정렬을 위한 참조 모델 학습하기

Learn Your Reference Model for Real Good Alignment

April 15, 2024
저자: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI

초록

정렬 문제의 복잡성은 기존 방법들이 불안정하다는 사실에서 비롯됩니다. 연구자들은 이러한 단점을 해결하기 위해 다양한 기법을 지속적으로 개발하고 있습니다. 예를 들어, 언어 모델 정렬의 기본 기술인 인간 피드백 강화 학습(RLHF)에서는 보상 최대화 외에도, 학습 가능한 정책과 SFT 정책 간의 Kullback-Leibler 발산을 최소화합니다. 이 추가 사항은 모델이 보상 모델(RM)에 과적합되는 것을 방지하고, RM의 도메인을 벗어난 텍스트를 생성하지 않도록 합니다. 직접 선호 최적화(DPO) 방법은 RLHF의 최적화 문제를 재구성하여 보상 모델을 제거하면서도, 정책이 SFT 정책에 가깝게 유지되어야 한다는 요구 사항을 암묵적으로 유지합니다. 본 논문에서는 DPO 방법의 이러한 암묵적 제한이 최적이 아닌 결과를 초래한다고 주장합니다. 우리는 훈련 과정에서 참조 정책을 업데이트하는 새로운 방법인 Trust Region DPO(TR-DPO)를 제안합니다. 이러한 간단한 업데이트를 통해, Anthropic HH 및 TLDR 데이터셋에서 TR-DPO가 DPO보다 효과적임을 입증합니다. GPT-4를 사용한 자동 평가에서 TR-DPO가 DPO를 최대 19%까지 능가하는 것을 보여줍니다. 우리가 제안하는 새로운 정렬 접근법은 일관성, 정확성, 세부 수준, 유용성, 무해성 등 여러 매개변수에 걸쳐 모델의 품질을 동시에 개선할 수 있게 합니다.
English
The complexity of the alignment problem stems from the fact that existing methods are unstable. Researchers continuously invent various tricks to address this shortcoming. For instance, in the fundamental Reinforcement Learning From Human Feedback (RLHF) technique of Language Model alignment, in addition to reward maximization, the Kullback-Leibler divergence between the trainable policy and the SFT policy is minimized. This addition prevents the model from being overfitted to the Reward Model (RM) and generating texts that are out-of-domain for the RM. The Direct Preference Optimization (DPO) method reformulates the optimization task of RLHF and eliminates the Reward Model while tacitly maintaining the requirement for the policy to be close to the SFT policy. In our paper, we argue that this implicit limitation in the DPO method leads to sub-optimal results. We propose a new method called Trust Region DPO (TR-DPO), which updates the reference policy during training. With such a straightforward update, we demonstrate the effectiveness of TR-DPO against DPO on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by up to 19%, measured by automatic evaluation with GPT-4. The new alignment approach that we propose allows us to improve the quality of models across several parameters at once, such as coherence, correctness, level of detail, helpfulness, and harmlessness.

Summary

AI-Generated Summary

PDF870December 15, 2024