ChatPaper.aiChatPaper

大規模言語モデルの整合性のための加速された選好最適化

Accelerated Preference Optimization for Large Language Model Alignment

October 8, 2024
著者: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI

要旨

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLMs)を人間の好みと整合させるための重要なツールとして台頭しています。最も人気のあるアプローチの1つである直接選好最適化(DPO)は、RLHFを報酬関数を明示的に推定せずにポリシー最適化問題として定式化します。通常、報酬関数をまず推定し、次にポリシーをプロキシマルポリシー最適化(PPO)を介して最適化する2段階アプローチの安定性と効率性の問題を克服します。RLHFは基本的に最適化問題であり、理論的にも経験的にも最適化を加速させることができるモメンタム技術がよく知られているため、自然な疑問が生じます。RLHFはモメンタムによって加速することができるのか? 本論文はこの問いに肯定的に答えます。具体的には、反復的選好最適化法がプロキシマル点法と見なせることをまず示します。この観察に基づいて、多くの既存の選好最適化アルゴリズムを統一し、Nesterovのモメンタム技術を用いてLLMsの整合化を加速する一般的な加速選好最適化(APO)フレームワークを提案します。理論的には、APOがDPOやセルフプレイ選好最適化(SPPO)を含む標準的な反復選好最適化法よりも速い収束率を達成できることを示します。経験的には、APOがAlpacaEval 2.0ベンチマークでのRLHFにおいてDPO、反復DPO、および他の強力なベースラインよりも優れていることを示します。
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal tool for aligning large language models (LLMs) with human preferences. Direct Preference Optimization (DPO), one of the most popular approaches, formulates RLHF as a policy optimization problem without explicitly estimating the reward function. It overcomes the stability and efficiency issues of two-step approaches, which typically involve first estimating the reward function and then optimizing the policy via proximal policy optimization (PPO). Since RLHF is essentially an optimization problem, and it is well-known that momentum techniques can accelerate optimization both theoretically and empirically, a natural question arises: Can RLHF be accelerated by momentum? This paper answers this question in the affirmative. In detail, we first show that the iterative preference optimization method can be viewed as a proximal point method. Based on this observation, we propose a general Accelerated Preference Optimization (APO) framework, which unifies many existing preference optimization algorithms and employs Nesterov's momentum technique to speed up the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a faster convergence rate than the standard iterative preference optimization methods, including DPO and Self-Play Preference Optimization (SPPO). Empirically, we show the superiority of APO over DPO, iterative DPO, and other strong baselines for RLHF on the AlpacaEval 2.0 benchmark.

Summary

AI-Generated Summary

PDF52November 16, 2024