自己改善型ロバスト選好最適化
Self-Improving Robust Preference Optimization
June 3, 2024
著者: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
cs.AI
要旨
オンラインおよびオフラインのRLHF(人間の選好に基づく強化学習)手法、例えばPPOやDPOは、AIを人間の選好に合わせることに極めて成功してきました。しかし、これらの既存手法は根本的な問題を抱えています。それは、最適解がタスクに強く依存する(すなわち、分布外(OOD)タスクに対して頑健ではない)という点です。本論文では、この課題に対処するため、Self-Improving Robust Preference Optimization(SRPO)を提案します。SRPOは、タスクの変化に対して完全に頑健な、実用的かつ数学的に原理に基づいたオフラインRLHFフレームワークです。SRPOの鍵となるアイデアは、人間の選好からの学習問題を自己改善プロセスとして定式化することです。これは、自己改善ポリシーと生成ポリシーを敵対的に最適化するmin-max目的関数として数学的に表現できます。この最適化問題の解は学習タスクに依存しないため、タスクの変化に対して頑健です。さらに、この目的関数は非敵対的なオフライン損失の形で再表現でき、報酬モデルやオンライン推論を必要とせずに、標準的な教師あり最適化手法を用いて大規模に最適化できます。SRPOの有効性は、AIのWin-Rate(WR)を人間のGOLD補完と比較することで示しています。特に、OODデータセットであるXSUMで評価した場合、SRPOは5回の自己修正後に、有名なDPOを15%の明確な差で上回り、90%のWRを達成しました。
English
Both online and offline RLHF methods such as PPO and DPO have been extremely
successful in aligning AI with human preferences. Despite their success, the
existing methods suffer from a fundamental problem that their optimal solution
is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks).
Here we address this challenge by proposing Self-Improving Robust Preference
Optimization SRPO, a practical and mathematically principled offline RLHF
framework that is completely robust to the changes in the task. The key idea of
SRPO is to cast the problem of learning from human preferences as a
self-improvement process, which can be mathematically expressed in terms of a
min-max objective that aims at joint optimization of self-improvement policy
and the generative policy in an adversarial fashion. The solution for this
optimization problem is independent of the training task and thus it is robust
to its changes. We then show that this objective can be re-expressed in the
form of a non-adversarial offline loss which can be optimized using standard
supervised optimization techniques at scale without any need for reward model
and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate
(WR) against human (GOLD) completions. In particular, when SRPO is evaluated on
the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of
15% after 5 self-revisions, achieving WR of 90%.Summary
AI-Generated Summary