直接選好最適化のための新たなデシデラータ
New Desiderata for Direct Preference Optimization
July 12, 2024
著者: Xiangkun Hu, Tong He, David Wipf
cs.AI
要旨
過去の大規模言語モデルは、モデルの応答を人間の選好により適切に整合させるために、何らかの形の人間フィードバックを用いた強化学習(RLHF)に依存してきた。しかし、これらのRLHFパイプラインを実装する際にしばしば観察される不安定性のため、最近ではRL報酬モデルを別途学習する必要性を回避するためのさまざまな再パラメータ化技術が導入されている。代わりに、単一の閉形式の訓練目的関数を最小化することで、人間の選好に直接的に微調整を行うことが可能となった。このプロセスは当初、直接選好最適化(DPO)と呼ばれ、その後いくつかの注目すべき派生手法が続いた。現実世界の特定の設定では効果的であるものの、我々は新しい評価基準を導入し、既存のDPO手法が事前学習された参照モデルと人間の選好の経験的尺度との間を補間する能力における未解決の課題、および低品質と高品質の応答を正則化する方法や制約を扱う際の避けられないトレードオフを浮き彫りにする。これらの洞察は、これらの制限を確実に緩和する代替的なDPO風の損失関数を動機づける。実験結果は、我々の分析の注目すべき側面を裏付けるものである。
English
Large language models in the past have typically relied on some form of
reinforcement learning with human feedback (RLHF) to better align model
responses with human preferences. However, because of oft-observed
instabilities when implementing these RLHF pipelines, various
reparameterization techniques have recently been introduced to sidestep the
need for separately learning an RL reward model. Instead, directly fine-tuning
for human preferences is achieved via the minimization of a single closed-form
training objective, a process originally referred to as direct preference
optimization (DPO) and followed by several notable descendants. Although
effective in certain real-world settings, we introduce new evaluation criteria
that serve to highlight unresolved shortcomings in the ability of existing DPO
methods to interpolate between a pre-trained reference model and empirical
measures of human preferences, as well as unavoidable trade-offs in how low-
and high-quality responses are regularized and constraints are handled. Our
insights then motivate an alternative DPO-like loss that provably mitigates
these limitations. Empirical results serve to corroborate notable aspects of
our analyses.Summary
AI-Generated Summary