真の整合性を実現するための参照モデルの学習Learn Your Reference Model for Real Good Alignment
アライメント問題の複雑さは、既存の手法が不安定であるという事実に起因しています。研究者たちはこの欠点を解決するために、さまざまな工夫を継続的に考案しています。例えば、言語モデルのアライメントにおける基本的な手法である「人間のフィードバックからの強化学習(RLHF)」では、報酬の最大化に加えて、学習可能なポリシーとSFT(Supervised Fine-Tuning)ポリシー間のカルバック・ライブラー(KL)ダイバージェンスを最小化します。この追加により、モデルが報酬モデル(RM)に過剰適合し、RMのドメイン外のテキストを生成することを防ぎます。「直接選好最適化(DPO)」手法は、RLHFの最適化タスクを再定式化し、報酬モデルを排除しながら、ポリシーがSFTポリシーに近いという要件を暗黙的に維持します。本論文では、DPO手法におけるこの暗黙的な制限が最適でない結果をもたらすと主張します。我々は、トレーニング中に参照ポリシーを更新する新しい手法「Trust Region DPO(TR-DPO)」を提案します。このシンプルな更新により、TR-DPOがAnthropic HHおよびTLDRデータセットにおいてDPOを上回る有効性を実証します。GPT-4を用いた自動評価では、TR-DPOがDPOを最大19%上回ることを示します。我々が提案する新しいアライメント手法により、一貫性、正確性、詳細度、有用性、無害性など、複数のパラメータにわたってモデルの品質を同時に向上させることが可能となります。