REINFORCE++: 大規模言語モデルの調整のためのシンプルで効率的なアプローチREINFORCE++: A Simple and Efficient Approach for Aligning Large Language
Models
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための重要な手法として台頭し、Proximal Policy Optimization(PPO)、Direct Preference Optimization(DPO)、REINFORCE Leave One-Out(RLOO)、ReMax、Group Relative Policy Optimization(GRPO)などの手法を通じて急速なアルゴリズムの進化を目撃しています。私たちは、古典的なREINFORCEアルゴリズムの強化バリアントであるREINFORCE++を提案します。この手法は、PPOからの主要な最適化技術を取り入れつつ、評価者ネットワークの必要性を排除しています。REINFORCE++は、3つの主要な目標を達成します:(1)単純さ、(2)強化されたトレーニングの安定性、および(3)計算オーバーヘッドの削減。包括的な経験的評価を通じて、REINFORCE++は、GRPOよりも優れた安定性を示し、PPOよりも優れた計算効率を達成しつつ、同等の性能を維持します。実装はhttps://github.com/OpenRLHF/OpenRLHFで入手可能です。