REINFORCE++ : Une approche simple et efficace pour aligner de grands modĂšles de langageREINFORCE++: A Simple and Efficient Approach for Aligning Large Language
Models
L'apprentissage par renforcement à partir des retours humains (RLHF) s'est imposé comme une approche cruciale pour aligner de grands modÚles de langage sur les préférences humaines, observant une évolution algorithmique rapide à travers des méthodes telles que l'Optimisation de Politique Proximale (PPO), l'Optimisation de Préférence Directe (DPO), REINFORCE Leave One-Out (RLOO), ReMax et l'Optimisation de Politique Relative de Groupe (GRPO). Nous présentons REINFORCE++, une variante améliorée de l'algorithme classique REINFORCE qui intÚgre des techniques d'optimisation clés de PPO tout en éliminant le besoin d'un réseau de critique. REINFORCE++ atteint trois objectifs principaux : (1) la simplicité, (2) une stabilité d'entraßnement améliorée et (3) une réduction des coûts computationnels. à travers une évaluation empirique approfondie, nous démontrons que REINFORCE++ présente une stabilité supérieure par rapport à GRPO et atteint une efficacité computationnelle plus grande que PPO tout en maintenant des performances comparables. L'implémentation est disponible sur https://github.com/OpenRLHF/OpenRLHF.