WARP: 報酬平均化ポリシーの利点について
WARP: On the Benefits of Weight Averaged Rewarded Policies
June 24, 2024
著者: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は、人間の選好に基づいて訓練された報酬モデルを使用し、大規模言語モデル(LLM)の生成が高い報酬を得るように促すことで、モデルを調整します。事前学習された知識の忘却を防ぐため、RLHFは通常KL正則化を組み込みます。これにより、ポリシーが教師ありファインチューニングされた初期状態に近いまま保たれますが、報酬の最適化が妨げられるという課題があります。KLと報酬のトレードオフに対処するため、本論文ではWeight Averaged Rewarded Policies(WARP)という新しい調整戦略を提案します。WARPは、重み空間において3つの異なる段階でポリシーを統合します。まず、KL正則化において、ポリシーの指数移動平均を動的なアンカーとして使用します。次に、球面補間を適用して、独立してファインチューニングされたポリシーを統合し、新たに強化されたポリシーを生成します。最後に、この統合モデルと初期化モデルとの間で線形補間を行い、事前学習からの特徴を回復します。この手順は反復的に適用され、各反復の最終モデルが次の反復の高度な初期化として使用されることで、KLと報酬のパレートフロントが段階的に改善され、固定KL下で優れた報酬を達成します。GEMMAポリシーを用いた実験により、WARPがその品質と調整を向上させ、他のオープンソースLLMを上回ることが検証されました。
English
Reinforcement learning from human feedback (RLHF) aligns large language
models (LLMs) by encouraging their generations to have high rewards, using a
reward model trained on human preferences. To prevent the forgetting of
pre-trained knowledge, RLHF usually incorporates a KL regularization; this
forces the policy to remain close to its supervised fine-tuned initialization,
though it hinders the reward optimization. To tackle the trade-off between KL
and reward, in this paper we introduce a novel alignment strategy named Weight
Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at
three distinct stages. First, it uses the exponential moving average of the
policy as a dynamic anchor in the KL regularization. Second, it applies
spherical interpolation to merge independently fine-tuned policies into a new
enhanced one. Third, it linearly interpolates between this merged model and the
initialization, to recover features from pre-training. This procedure is then
applied iteratively, with each iteration's final model used as an advanced
initialization for the next, progressively refining the KL-reward Pareto front,
achieving superior rewards at fixed KL. Experiments with GEMMA policies
validate that WARP improves their quality and alignment, outperforming other
open-source LLMs.Summary
AI-Generated Summary