Lean and Mean : Optimisation de Politique à Valeur Découplée avec Guidage Global de la Valeur

papers.abstract

L'apprentissage par renforcement à partir de retours humains (RLHF) basé sur l'Optimisation Proximale des Politiques (PPO) est essentiel pour aligner les grands modèles de langage (LLMs) avec les préférences humaines. Il nécessite un entraînement conjoint d'un acteur et d'un critique avec un modèle de récompense prétraité et fixe pour guider le processus. Cette approche augmente la complexité computationnelle et l'instabilité en raison de l'interdépendance entre l'acteur et le critique. De plus, PPO n'a pas accès aux véritables récompenses de l'environnement dans les tâches de LLM, limitant ainsi son adaptabilité. Dans de telles conditions, le prétraitement d'un modèle de valeur ou d'un modèle de récompense devient équivalent, car les deux fournissent des signaux de supervision fixes sans nouveaux retours de vérité terrain. Pour résoudre ces problèmes, nous proposons l'Optimisation des Politiques par Valeur Découplée (DVPO), un cadre léger qui remplace la modélisation traditionnelle des récompenses par un modèle de valeur global (GVM) prétraité. Le GVM est conditionné sur les trajectoires de la politique et prédit des estimations de retour à venir au niveau des tokens. En découplant le modèle de valeur de l'entraînement de la politique (via des objectifs de RL pilotés par un GVM figé), DVPO élimine l'interdépendance entre l'acteur et le critique, réduisant l'utilisation de la mémoire GPU de 40 % et le temps d'entraînement de 35 % par rapport au RLHF conventionnel. Les expériences sur divers benchmarks montrent que DVPO surpasse les méthodes de RLHF efficaces (par exemple, DPO) tout en égalant les performances de l'état de l'art en PPO.

English

Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Lean and Mean : Optimisation de Politique à Valeur Découplée avec Guidage Global de la Valeur

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

papers.abstract

Support