ChatPaper.aiChatPaper

真の整合性を実現するための参照モデルの学習

Learn Your Reference Model for Real Good Alignment

April 15, 2024
著者: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI

要旨

アライメント問題の複雑さは、既存の手法が不安定であるという事実に起因しています。研究者たちはこの欠点を解決するために、さまざまな工夫を継続的に考案しています。例えば、言語モデルのアライメントにおける基本的な手法である「人間のフィードバックからの強化学習(RLHF)」では、報酬の最大化に加えて、学習可能なポリシーとSFT(Supervised Fine-Tuning)ポリシー間のカルバック・ライブラー(KL)ダイバージェンスを最小化します。この追加により、モデルが報酬モデル(RM)に過剰適合し、RMのドメイン外のテキストを生成することを防ぎます。「直接選好最適化(DPO)」手法は、RLHFの最適化タスクを再定式化し、報酬モデルを排除しながら、ポリシーがSFTポリシーに近いという要件を暗黙的に維持します。本論文では、DPO手法におけるこの暗黙的な制限が最適でない結果をもたらすと主張します。我々は、トレーニング中に参照ポリシーを更新する新しい手法「Trust Region DPO(TR-DPO)」を提案します。このシンプルな更新により、TR-DPOがAnthropic HHおよびTLDRデータセットにおいてDPOを上回る有効性を実証します。GPT-4を用いた自動評価では、TR-DPOがDPOを最大19%上回ることを示します。我々が提案する新しいアライメント手法により、一貫性、正確性、詳細度、有用性、無害性など、複数のパラメータにわたってモデルの品質を同時に向上させることが可能となります。
English
The complexity of the alignment problem stems from the fact that existing methods are unstable. Researchers continuously invent various tricks to address this shortcoming. For instance, in the fundamental Reinforcement Learning From Human Feedback (RLHF) technique of Language Model alignment, in addition to reward maximization, the Kullback-Leibler divergence between the trainable policy and the SFT policy is minimized. This addition prevents the model from being overfitted to the Reward Model (RM) and generating texts that are out-of-domain for the RM. The Direct Preference Optimization (DPO) method reformulates the optimization task of RLHF and eliminates the Reward Model while tacitly maintaining the requirement for the policy to be close to the SFT policy. In our paper, we argue that this implicit limitation in the DPO method leads to sub-optimal results. We propose a new method called Trust Region DPO (TR-DPO), which updates the reference policy during training. With such a straightforward update, we demonstrate the effectiveness of TR-DPO against DPO on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by up to 19%, measured by automatic evaluation with GPT-4. The new alignment approach that we propose allows us to improve the quality of models across several parameters at once, such as coherence, correctness, level of detail, helpfulness, and harmlessness.

Summary

AI-Generated Summary

PDF870December 15, 2024