ChatPaper.aiChatPaper

REINFORCE++ : Une approche simple et efficace pour aligner de grands modèles de langage

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

January 4, 2025
Auteurs: Jian Hu
cs.AI

Résumé

L'apprentissage par renforcement à partir des retours humains (RLHF) s'est imposé comme une approche cruciale pour aligner de grands modèles de langage sur les préférences humaines, observant une évolution algorithmique rapide à travers des méthodes telles que l'Optimisation de Politique Proximale (PPO), l'Optimisation de Préférence Directe (DPO), REINFORCE Leave One-Out (RLOO), ReMax et l'Optimisation de Politique Relative de Groupe (GRPO). Nous présentons REINFORCE++, une variante améliorée de l'algorithme classique REINFORCE qui intègre des techniques d'optimisation clés de PPO tout en éliminant le besoin d'un réseau de critique. REINFORCE++ atteint trois objectifs principaux : (1) la simplicité, (2) une stabilité d'entraînement améliorée et (3) une réduction des coûts computationnels. À travers une évaluation empirique approfondie, nous démontrons que REINFORCE++ présente une stabilité supérieure par rapport à GRPO et atteint une efficacité computationnelle plus grande que PPO tout en maintenant des performances comparables. L'implémentation est disponible sur https://github.com/OpenRLHF/OpenRLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical approach for aligning large language models with human preferences, witnessing rapid algorithmic evolution through methods such as Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave One-Out (RLOO), ReMax, and Group Relative Policy Optimization (GRPO). We present REINFORCE++, an enhanced variant of the classical REINFORCE algorithm that incorporates key optimization techniques from PPO while eliminating the need for a critic network. REINFORCE++ achieves three primary objectives: (1) simplicity (2) enhanced training stability, and (3) reduced computational overhead. Through extensive empirical evaluation, we demonstrate that REINFORCE++ exhibits superior stability compared to GRPO and achieves greater computational efficiency than PPO while maintaining comparable performance. The implementation is available at https://github.com/OpenRLHF/OpenRLHF.

Summary

AI-Generated Summary

PDF992January 8, 2025