ChatPaper.aiChatPaper

リーン・アンド・ミーン:グローバル価値ガイダンスを用いた分離型価値政策最適化

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

February 24, 2025
著者: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

要旨

近接方策最適化(PPO)ベースの人間フィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に合わせるために不可欠です。これには、事前学習済みの固定報酬モデルをガイドとして使用するアクターとクリティックの共同訓練が必要です。このアプローチは、アクターとクリティックの相互依存性により計算の複雑さと不安定性を増大させます。さらに、PPOはLLMタスクにおいて真の環境報酬にアクセスできないため、適応性が制限されます。このような条件下では、価値モデルまたは報酬モデルの事前学習は等価であり、どちらも新しい真実のフィードバックなしに固定された監督信号を提供します。これらの課題に対処するため、我々は従来の報酬モデリングを事前学習済みのグローバル価値モデル(GVM)に置き換える、簡潔なフレームワークであるDecoupled Value Policy Optimization(DVPO)を提案します。GVMは方策軌跡に条件付けられ、トークンレベルのリターン・トゥ・ゴー推定値を予測します。価値モデルを方策訓練から分離することにより(凍結されたGVM駆動のRL目標を通じて)、DVPOはアクターとクリティックの相互依存性を排除し、従来のRLHFと比較してGPUメモリ使用量を40%、訓練時間を35%削減します。ベンチマーク実験では、DVPOが効率的なRLHF手法(例:DPO)を上回り、最先端のPPOと同等の性能を発揮することが示されています。
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Summary

AI-Generated Summary

PDF102February 28, 2025