Lean and Mean : Optimisation de Politique à Valeur Découplée avec Guidage Global de la Valeur
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance
February 24, 2025
Auteurs: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) basé sur l'Optimisation Proximale des Politiques (PPO) est essentiel pour aligner les grands modèles de langage (LLMs) avec les préférences humaines. Il nécessite un entraînement conjoint d'un acteur et d'un critique avec un modèle de récompense prétraité et fixe pour guider le processus. Cette approche augmente la complexité computationnelle et l'instabilité en raison de l'interdépendance entre l'acteur et le critique. De plus, PPO n'a pas accès aux véritables récompenses de l'environnement dans les tâches de LLM, limitant ainsi son adaptabilité. Dans de telles conditions, le prétraitement d'un modèle de valeur ou d'un modèle de récompense devient équivalent, car les deux fournissent des signaux de supervision fixes sans nouveaux retours de vérité terrain. Pour résoudre ces problèmes, nous proposons l'Optimisation des Politiques par Valeur Découplée (DVPO), un cadre léger qui remplace la modélisation traditionnelle des récompenses par un modèle de valeur global (GVM) prétraité. Le GVM est conditionné sur les trajectoires de la politique et prédit des estimations de retour à venir au niveau des tokens. En découplant le modèle de valeur de l'entraînement de la politique (via des objectifs de RL pilotés par un GVM figé), DVPO élimine l'interdépendance entre l'acteur et le critique, réduisant l'utilisation de la mémoire GPU de 40 % et le temps d'entraînement de 35 % par rapport au RLHF conventionnel. Les expériences sur divers benchmarks montrent que DVPO surpasse les méthodes de RLHF efficaces (par exemple, DPO) tout en égalant les performances de l'état de l'art en PPO.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human
Feedback (RLHF) is essential for aligning large language models (LLMs) with
human preferences. It requires joint training of an actor and critic with a
pretrained, fixed reward model for guidance. This approach increases
computational complexity and instability due to actor-critic interdependence.
Additionally, PPO lacks access to true environment rewards in LLM tasks,
limiting its adaptability. Under such conditions, pretraining a value model or
a reward model becomes equivalent, as both provide fixed supervisory signals
without new ground-truth feedback. To address these issues, we propose
Decoupled Value Policy Optimization (DVPO), a lean framework that
replaces traditional reward modeling with a pretrained global value model
(GVM). The GVM is conditioned on policy trajectories and predicts token-level
return-to-go estimates. By decoupling value model from policy training (via
frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence,
reducing GPU memory usage by 40\% and training time by 35\% compared to
conventional RLHF. Experiments across benchmarks show DVPO outperforms
efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in
performance.Summary
AI-Generated Summary